python语料库_NLP&Python笔记——语料库

什么是语料库?文本语料库是一个大型结构化文本的集合。

NLTK包含了许多语料库:

(1)古滕堡语料库

(2)网络和聊天文本

(3)布朗语料库

(4)路透社语料库

(5)就职演讲语料库

(6)标注文本语料库

词汇列表语料库

(1)词汇列表:nltk.corpus.words.words()

词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用。下面这段代码的功能是:过滤文本,留下罕见或拼写错误的词汇,删除在词汇列表中出现过的词汇。

#coding:utf-8

import nltk

def unusual_words(text):

text_vocab=set(w.lower() for w in text if w.isalpha())

english_vocab=set(w.lower() for w in nltk.corpus.words.words())

unusual=text_vocab.difference(english_vocab) #求差集

return sorted(unusual)

print(unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt')))

print(unusual_words(nltk.corpus.nps_chat.words()))

(2)停用词语料库:nltk.corpus.stopwords.words()

停用词语料库包含一些高频词,在处理时可以从文档中过滤掉,以便区分文本。下面这段代码实现了计算文本中不包含在停用词语料库中的词所占的比例。

import nltk

def content_fraction(text):

stopwords=nltk.corpus.stopwords.words('english')

content=[w for w in text if w.lower() not in stopwords]

return len(content)*1.0/len(text)

print(content_fraction(nltk.corpus.reuters.words()))

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值