3.2.1-停用词

停用词意义

  1. 在自然语言中,存在一些对理解而言意义不大的词,如中文中的“的、个、你”等。
  2. 系统在处理文本时,可以直接忽略停用词。
  3. 可以在基本不损失语义的情况下,提升系统的处理效率。

停用词的界定

字典

根据停用词的字典,直接将字典内的词过滤。

单词的文档频率(Document Frequency,DF)

若DF低于或高于一定的阈值,则作为停用词过滤掉。

DF:在文档集合中。有多少篇文档出现过这个词。
  • 文档频率过低
    这个词对于当前文档集合,影响不大。
  • 文档频率过高
    这个词可能没有什么特殊含义,对于文本的理解没有太大意义。

停用词处理程序实例

NLTK(Natural Language Toolkit)

  • 帮助编程人员进行自然语言的处理。
  • 安装,在pycharm中的setting中安装
    在这里插入图片描述

语料库

使用路透社语料库(reuters)。

    # 下载 “路透社” 语料库、
    import nltk
    #
    nltk.download('reuters')
    nltk.download('stopwords')

    # 查看
    from nltk.corpus import reuters, stopwords
    # 路透社
    print(reuters.fileids())
    # 停用词
    print(stopwords.fileids())
    print(stopwords.words('english'))

在这里插入图片描述
在这里插入图片描述

作用

通过对路透社的实例过滤得到的单词,可以使用类似停用词字典的方式,对每一篇文章只保留DF满足一定要求的单词。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值