统计自然语言处理--文本分类

文本表示

文本表示有向量空间模型,词组表示法,概念表示法
目前文本通常采用向量空间模型表示

  • 文档
  • 特征项 可以是词,短语,文档可以看成是特征集合
  • 特征项的权重,文档可以用其含有的特征项以及特征项的权重表示

( 向量空间模型( VSM) ) 给定一个文档D( t1,
w1;t2, w2;…;tn, wn) , D符合以下两条约定:
( 1) 各个特征项tk( 1≤k≤n) 互异( 即没有重复) ( 2) 各个特征项tk无先后顺序关系( 即不考虑文档的内部结构) 。
在以上两个约定下, 可以把特征项t1, t2, …, tn看成一个n维坐标
系, 而权重w1, w2, …, wn为相应的坐标值, 因此, 一个文本就表示为n维空间中的一个向量。 我们称D=D( w1, w2, …, wn) 为文本D的向量表示或向量空间模型;

向量(文档)的相似度
  • 表示文档的向量的内积
  • 两个文档向量的夹角余弦值
向量空间模型步骤
  1. 根据训练样本集生成 文本表示所需要的特征项序列D={t1,t2,…,tn}
  2. 对训练集和测试集文档进行权重赋值
文档特征选择
  • 基于文档频率的特征提取法(DF)
    从训练语料中统计出包含某个特征的文章的个数,设定最高和最低阈值,保留阈值之内的特征
  • 信息增益法(IG)
    信息增益即不考虑任何特征市文档的熵和考虑该特征后文档的熵的差
    特征信息增益越大,对于分类的贡献越大
    这里写图片描述
  • 卡方分布
  • 互信息法
    特征t和类别共现的可能越大,互信息越大
    这里写图片描述
特征权重计算
  • 布尔权重 文档j中出现特征i分量值为1,否则为0
  • 绝对词频 文档j中出现特征i的频度
  • 倒排文档频度 log(N/ni)
  • TF-IDF
  • TFC tf-idf基础上进行归一化
    #### 分类器
    朴素贝叶斯
    SVM
    KNN
    决策树
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值