TO BE SMART

耳习于所闻--则喜谀而恶直---目习于所见--则喜柔而恶刚---心习于所是--则喜从而恶违---三习...

NLTK自然语言处理2

1、网络和聊天文本

from nltk.corpus import webtext
 for fileid in webtext.fileids():
from nltk.corpus import nps_chat
>>> chatroom = nps_chat.posts('10-19-20s_706posts.xml')
>>> chatroom[123]
['i', 'do', "n't", 'want', 'hot', 'pics', 'of', 'a', 'female']

2、布朗语料库

from nltk.corpus import brown
>>> brown.categories()
['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies',
'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance',
'science_fiction']
查找类型为‘news’的文章
>> brown.words(categories='news')
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
查找fileids是cg22的文章
>>> brown.words(fileids=['cg22'])
['Does', 'our', 'society', 'have', 'a', 'runaway', ',', ...]

>>> brown.sents(categories=['news', 'editorial', 'reviews'])
[['The', 'Fulton', 'County'...], ['The', 'jury', 'further'...], ...

这里写图片描述

阅读更多
文章标签: 自然语言处理 NLTK
个人分类: NLTK自然语言处理
想对作者说点什么? 我来说一句

nltk 自然语言处理工具包

2009年04月29日 1.5MB 下载

基于nltk自然语言处理入门

2017年11月14日 4KB 下载

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭