机器学习笔记（一）之特征工程、特征处理方法、特征构建

最新推荐文章于 2024-11-08 23:59:09 发布

遇见飄雪

最新推荐文章于 2024-11-08 23:59:09 发布

阅读量593

点赞数

分类专栏： python 机器学习与深度学习文章标签：机器学习笔记人工智能

本文链接：https://blog.csdn.net/aigcl/article/details/130208118

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习与深度学习

1 篇文章 0 订阅

订阅专栏

文章详细阐述了特征工程的过程，包括特征选择、获取、处理和评估。提到特征使用方案应考虑对因变量的影响，可用性评估涉及获取难度、覆盖度和准确率。特征处理环节涵盖异常样本清洗、预处理如归一化和离散化，以及降维方法如PCA和LDA。特征选择则讨论了过滤法、封装法和嵌入法。此外，还强调了衍生变量的创建和特征的有效性分析。

摘要由CSDN通过智能技术生成

特征使用方案

这里我们要思考要实现我们的目标需要哪些数据
答：基于我们的专业知识，尽可能找出对因变量有影响的所有自变量。

举个例子：
评价一个车是否是好车，我们有很多的参数，那么当我们训练一个模型帮助我们去判断车的好坏时候，就需要考虑各种各样的参数。有时候训练结果的不好，修改各类参数也无法得到较好的结果时，可以返回最初的数据集特征的选择。极端：如果仅选择颜色作为评价车好坏的特征，那结果一定也不如意。

可用性评估

在尽可能思考全面特征的情况下，再进行可用性评估。
1.获取难度

2.覆盖度

3.准确率

由于我处理的数据大多是卫星数据，很多时候，结果的验证就是一个问题。
有时候，需要尽可能的去寻找辅助数据，搜索监测站数据是否有需要的数据。还有一些数据则不好获取。比如研究水藻，思考是否水藻的漂浮和悬浮在对位于不同生长周期判断方面有区别呢？这个是否可以作为判断生长周期的一个依据呢？可若以此为特征，数据的获取将会十分困难。如果目标是建立一个遥感卫星实时监测平台，更是无法将此作为特征，总不能实时实地检测，实时监测，哈哈。（例子若有不妥之处，欢迎指正。）