处理流程
下载网页,如果需要可以剥除HTML,整理成所需要的内容
import nltk
from urllib import urlopen
url = "http://www.baidu.com"
html = urlopen(url).read()
raw = nltk.clean_html(html)
raw = raw[750:434343]
标记文本,选出其中感兴趣的标记,创建一个NLTK文本
tokens = nltk.wordpunct_tokenize(raw)
tokens = tokens[20:2424]
text = nltk.Text(tokens)
标准化处理文字,创建词汇表
words = [w.lower() for w in text]
vocab = sorted(set(words))
处理流程:我们打开一个URL代码读取里面HTML格式的内容,去除标记,并选择字符的切片,然后分词,是否转换为nltk.Text对象是可选的。我们也可以将所有词汇小写并提取词汇表。
在一段NLP代码中可能做的第一件事情就是讲一个字符串分词放入一个字符串链表中。
Beautiful Soup 软件包
更复杂的有关处理HTML的内容
http://www.crummy.com/software/BeautifulSoup/
参考《Natural Language Processing with Python》