［NLTK自然语言处理］获取网页文档

最新推荐文章于 2021-11-02 14:44:45 发布

GeekInside

最新推荐文章于 2021-11-02 14:44:45 发布

阅读量1k

点赞数

文章标签：自然语言处理 tokenize header import 文档 url

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GeekInside/article/details/6328754

版权

1. 获取网页

1.1 一般网页：

使用urllib包

>>> from urllib import urlopen

指定url

>>> url = "http://www.gutenberg.org/files/2554/2554.txt"

读入原始文档

>>> raw = urlopen(url).read()

Check：raw的类型是str

>>> type(raw)

<type 'str'>

1.2 特殊网页：

如使用1.1的方法读入wikipedia的网页会返回Access Deny，需要使用urllib2，手动添加header，让wiki以为是浏览器访问
使用urllib2包
>>> import urllib2
建立opener
>>> opener = urllib2.build_opener()
添加header
>>> opener.addheaders = [('User-agent', 'Mozilla/5.0')]
打开url
>>> infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
>>> type(infile)
<type 'instance'>
读入原始文档
>>> raw = infile.read()

2. 删除html标签

如果是txt或其他文本文件，跳过此步
>>> raw = nltk.clean_html(raw)

3. 删除多余信息。

由于没有内置功能，只能手动找到所需要信息的头和尾，截取中间部分
>>> raw.find("PART I")
5303
>>> raw.rfind("End of Project Gutenberg's Crime")
1157681
>>> raw = raw[5303:1157681]

4 从raw生成tokens

>>> tokens = nltk.word_tokenize(raw)
>>> type(tokens)
<type 'list'>

5 从tokens生成text

>>> text = nltk.Text(tokens)
>>> type(text)
<class 'nltk.text.Text'>

6. 从text生成vocab

>>> words = [w.lower() for w in text]

>>> vocab = sorted(set(words))

总结：

HTML----> ASCII (raw) ----> Text (tokens, text) ----> Vocab (words, vocab)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
［NLTK自然语言处理］获取网页文档

1. 使用urllib获取网页1.1 一般网页：使用urllib包>>> from urllib import urlopen指定url>>> url = "http://www.gutenberg.org/files/2554/2554.txt"读入原始文档>>> raw = urlopen(url).read()Check：raw的类型是str>>> type(raw)1.2 特殊网页：如使用1.1的方法读入wikipedia的网页会返回Access Deny，需要使用urllib2，手动添加heade
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。