2021-07-17 深度学习基础与实践（三）

最新推荐文章于 2024-09-04 14:24:09 发布

YYF_Tommy

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量210

点赞数

分类专栏：深度学习 & 机器学习文章标签：人工智能深度学习 python

本文链接：https://blog.csdn.net/m0_58286935/article/details/118787821

版权

一、特征工程

我们老师给我们讲过这样一句话：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。”
深度学习也要用到特征，需要对输入的特征进行组合变换等处理。
举例：以特征处理在nlp（自然语言处理）中的应用为例
1. 自动分词：将用自然语言书写的文章、句段经计算机处理后，以词为单位给以输出，为后续加工处理提供先决条件。
2. 词根提取与词形还原：抽取词的词干或词根形式与把词汇还原为一般形式
3. 词性标注：为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。
4. …

（仍然以nlp为例）

特征值缩放（Feature Scaler）也可以称为无量纲处理。主要是对每个列，即同一特征维度的数值进行规范化处理。
应用背景：
1. 不同特征（列）可能不属于同一量纲，即特征的规格不一样。例如，假设特征向量由两个解释变量构成，第一个变量值范围[0,1]，第二个变量值范围[0,100]。
2. 如果某一特征的方差数量级较大，可能会主导目标函数，导致其他特征的影响被忽略。
下面介绍集中常用方法和常见的例子：

标准化的前提是特征值服从正态分布。
标准化需要计算特征的均值和标准差，公式表达为： $X_scale = \frac {(X(axis = 0) - X.mean(axis = 0))} {X.std(axis = 0)}$
（ $X . s t d$ ：标准差（Standard Deviation），又常称均方差，用 $\sigma$ 表示，是方差的算术平方根）

区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特定范围。假设max和min为希望的调整后范围，则 $X_scale = \frac {(X(axis = 0) - X.min(axis = 0))} {(X.max(axis = 0) - X.min(axis = 0))} * (max - min) + min$

关注

专栏目录