利用NLTK处理HTML

处理流程

下载网页,如果需要可以剥除HTML,整理成所需要的内容

import nltk
from urllib import urlopen
url = "http://www.baidu.com"

html = urlopen(url).read()
raw = nltk.clean_html(html)
raw = raw[750:434343]

标记文本,选出其中感兴趣的标记,创建一个NLTK文本

tokens = nltk.wordpunct_tokenize(raw)
tokens = tokens[20:2424]
text = nltk.Text(tokens)

标准化处理文字,创建词汇表

words = [w.lower() for w in text]
vocab = sorted(set(words))

处理流程:我们打开一个URL代码读取里面HTML格式的内容,去除标记,并选择字符的切片,然后分词,是否转换为nltk.Text对象是可选的。我们也可以将所有词汇小写并提取词汇表。

在一段NLP代码中可能做的第一件事情就是讲一个字符串分词放入一个字符串链表中。

Beautiful Soup 软件包

更复杂的有关处理HTML的内容

http://www.crummy.com/software/BeautifulSoup/

参考《Natural Language Processing with Python》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值