统计自然语言处理--文本分类

最新推荐文章于 2022-05-09 18:27:49 发布

不知芝芝

最新推荐文章于 2022-05-09 18:27:49 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27965129/article/details/78393849

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文本表示

文本表示有向量空间模型，词组表示法，概念表示法
目前文本通常采用向量空间模型表示

文档
特征项可以是词，短语，文档可以看成是特征集合
特征项的权重，文档可以用其含有的特征项以及特征项的权重表示

（向量空间模型（ VSM））给定一个文档D（ t1，
w1;t2， w2;…;tn， wn）， D符合以下两条约定：
（ 1）各个特征项tk（ 1≤k≤n）互异（即没有重复）（ 2）各个特征项tk无先后顺序关系（即不考虑文档的内部结构）。
在以上两个约定下，可以把特征项t1， t2， …， tn看成一个n维坐标
系，而权重w1， w2， …， wn为相应的坐标值，因此，一个文本就表示为n维空间中的一个向量。我们称D＝D（ w1， w2， …， wn）为文本D的向量表示或向量空间模型；

向量（文档）的相似度

表示文档的向量的内积
两个文档向量的夹角余弦值

向量空间模型步骤

根据训练样本集生成文本表示所需要的特征项序列D={t1,t2,…,tn}
对训练集和测试集文档进行权重赋值

文档特征选择

基于文档频率的特征提取法（DF）
从训练语料中统计出包含某个特征的文章的个数，设定最高和最低阈值，保留阈值之内的特征
信息增益法（IG）
信息增益即不考虑任何特征市文档的熵和考虑该特征后文档的熵的差
特征信息增益越大，对于分类的贡献越大
卡方分布
互信息法
特征t和类别共现的可能越大，互信息越大

特征权重计算

布尔权重文档j中出现特征i分量值为1，否则为0
绝对词频文档j中出现特征i的频度
倒排文档频度 log(N/ni)
TF-IDF
TFC tf-idf基础上进行归一化
#### 分类器
朴素贝叶斯
SVM
KNN
决策树

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。