python自然语言处理-学习笔记(二)之nltk包常用的功能

本文介绍了如何使用Python的nltk库进行自然语言处理,包括获取语料库,如Gutenberg项目的txt文件,并通过text1.concordance()函数进行分析。此外,还讲解了如何利用tokenize包的TreebankWordTokenizer进行句子切分,以及标准化处理的初步步骤,为后续的相似性度量奠定基础。
摘要由CSDN通过智能技术生成

1,语料库的获取

>>>import nltk
>>>nltk.corpus.gutenberg.fileids()

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kj

v.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt'

, 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'che

sterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt',

'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt',

'shakespeare-macbeth.txt', 'whitman-leaves.txt']

emma = nltk.corpus.gutenberg.words('austen-emma.txt')

len(emma)

获取的是一些txt文件,好像是一些作者写的文章,如果要用第一章的text1.concordance()这个函数的话,得经过处理

>>>emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))

>>>emma.concordance('surprize')

获取文本语料库

导入包

>>>from nltk.corpus import gutenberg
>>>guitenberg.fileids()

执行得出gutenberg得所有得文件,可以进行遍历得到每个文件然后进行词汇的获取

>>>gutenberg.words()         #获取每个文件包含多少个单词

['[', 'Emma', 'by', 'Jane', 'Austen', '1816', 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值