1 特征工程有哪些
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼特征、作为输入供算法和模型使用。
数据类型主要讨论结构化数据和非结构化数据。
1.1结构化数据
1.1.1数值型类型:
为了消除特征之间的量纲影响,我们需要对特征进行归一化处理。
1、线性变换使结果映射到[0,1]范围内;
2、零均值归一化:
1.1.2类别类型:需要转换成数值型
1、序号编码:具有大小关系
2、独热编码:不具有大小关系
3、二进制编码:维数少于独热编码
1.1.3.组合特征:一阶离散特征两两组合,构成高阶组合特征
1.2非结构化数据
1.2.1文本数据:
1、词袋模型:将每篇文章看成一个袋子,并忽略每个词出现的顺序。
常用TF-IDF来计算权重
T
F
_
I
D
F
(
t
,
d
)
=
T
F
(
t
,
d
)
∗
I
D
F
(
T
)
T
F
_
I
D
F
(
t
,
d
)
表
示
单
词
t
在
文
档
d
中
出
现
的
频
率
。
I
D
F
(
T
)
是
逆
文
档
的
频
率
,
用
来
衡
量
单
词
t
对
表
达
语
义
所
起
的
重
要
性
。
TF\_IDF(t,d)=TF(t,d)*IDF(T) \\ TF\_IDF(t,d)表示单词t在文档d中出现的频率。IDF(T)是逆文档的频率, \\ 用来衡量单词t对表达语义所起的重要性。
TF_IDF(t,d)=TF(t,d)∗IDF(T)TF_IDF(t,d)表示单词t在文档d中出现的频率。IDF(T)是逆文档的频率,用来衡量单词t对表达语义所起的重要性。
I
D
F
(
t
)
=
文
章
总
数
l
o
g
包
含
单
词
t
的
文
章
总
数
+
1
如
果
一
个
词
在
非
常
多
的
文
章
里
面
都
出
现
,
那
么
它
可
能
是
一
个
比
较
通
用
的
词
,
对
于
区
分
某
篇
文
章
特
殊
语
义
的
贡
献
比
较
小
。
\\ IDF(t)=\frac{文章总数}{log包含单词t的文章总数+1} \\如果一个词在非常多的文章里面都出现,那么它可能是一个比较通用的词, \\对于区分某篇文章特殊语义的贡献比较小。
IDF(t)=log包含单词t的文章总数+1文章总数如果一个词在非常多的文章里面都出现,那么它可能是一个比较通用的词,对于区分某篇文章特殊语义的贡献比较小。
2、N-gram模型:将连续出现的n个词组成的词组作为一个单独的特征放到向量中去。
3、主题模型:从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
4、词嵌入:词嵌入是将一类词向量化的模型的统称,核心思想都将每个词映射为低维空间中上的一个稠密向量。
5、深度学习模型:自动进行特征工程的方式,模型中的每个隐层都可以认为为我们提供了一种自动进行特征工程方式。
6、word2vec:最常用的词嵌入模型。
CNOW:目标根据上下文的词语来预测当前词生成的概率。
Skip-gram:根据当前词预测上下文中各词出现的概率。
LDA:利用文档中单词的共现关系来对单词按主题聚类。
1.2.1图像数据:
训练数据不足的情况下
1、基于模型的方法
简化模型、添加正则项、集成学习、Dropout超参数
2、基于数据的方法
数据扩充:对图像进行一定的变换