【深度学习】第2章

特征工程

目录

一、自动分词

1.词根提取与词形还原

2.词性标注

3.句法分析

二、向量空间模型及文本相似度计算

1.文档的向量化表示

2.停用词

3.N-gram模型

4.文档之间的欧式距离

5.文档之间的余弦相似度

6.TF-iDF词条权重计算?????

三、特征处理(特征缩放、选择及降维)

1.特征值缩放(Feature Scaler)

(1)标准化法????

(2)区间缩放法

2.特征值的归一化(规范化)

3.定量特征的二值化

4.缺失特征值的弥补计算

5.创建多项式特征

6.特征选择

(1)方差选择法

(2)皮尔森相关系数※※

(3)基于森林的特征选择

(4)递归特征消除法

7.特征降维

(1)线性判别分析法

(2)主成分分析(PCA)


一、自动分词

1.词根提取与词形还原

2.词性标注

3.句法分析

其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。

PS:工具包NLTK(natual language toolkit)、Text Processing API、TextBlob、中文jieba

二、向量空间模型及文本相似度计算

1.文档的向量化表示

2.停用词

3.N-gram模型

4.文档之间的欧式距离

5.文档之间的余弦相似度

              

6.TF-iDF词条权重计算?????

TF是词频 (Term Frequency),IDF是逆文本频率指数。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值