【阅读】NLTK基础教程_用NLTK 和Python库构建机器学习应用 (2)

本文介绍了如何使用Python的NLTK库和BeautifulSoup解析网页内容,包括获取HTML,尝试清洗HTML,以及使用NLTK进行词频分析。在过程中遇到了一些错误,如类型不匹配和模块导入问题,但最终成功展示了使用NLTK进行基本文本分析的流程。
摘要由CSDN通过智能技术生成

向NLTK进发 = =,为了更好的处理日常的信息 (ps 最终想语言控制所有的操作,这就是未来的科技吧)

-----------废话不多-------------上例子-----------

>>> import urllib
>>> import urllib.request
>>> response = urllib.request.urlopen('http://python.org/')
>>> html = response.read()
>>> print(len(html))
48851

>>>

-------------果然,python3中urllib.request 就是python2 中的urllib2------------

分析文档的主体 

------------------------------------------------

清洗

------------------------------------------------

>>> tokens = [tok for tok in html.split()]
>>> print("Total no of tokens:"+ str(len(tokens)))
Total no of tokens:2936

>>> print(tokens[0:100])
[b'<!doctype', b'html>', b'<!--[if', b'lt', b'IE', b'7]>', b'<html', b'class="no-js', b'ie6', b'lt-ie7', b'lt-ie8', b'lt-ie9">', b'<![endif]-->', b'<!--[if', b'IE', b'7]>', b'<html', b'class="no-js', b'ie7', b'lt-ie8', b'lt-ie9">', b'<![endif]-->', b'<!--[if', b'IE', b'8]>', b'<html', b'class="no-js', b'ie8', b'lt-ie9">', b'<![endif]-->', b'<!--[if', b'gt', b'IE', b'8]><!--><html', b'class="no-js"', b'lang="en"', b'dir="ltr">', b'<!--<![endif]-->', b'<head>', b'<meta', b'charset="utf-8">', b'<meta', b'http-equiv="X-UA-Compatible"', b'content="IE=edge">', b'<link', b'rel="prefetch"', b'href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">', b'<meta', b'name="application-name"', b'content="Python.org">', b'<meta', b'name="msapplication-tooltip"', b'content="The', b'official', b'home', b'of', b'the', b'Python', b'Programming', b'Language">', b'<meta', b'name="apple-mobile-web-app-title"', b'content="Python.org">', b'<meta', b'name="apple-mobile-web-app-capable"', b'content="yes">', b'<meta', b'name="apple-mobile-web-app-status-bar-style"', b'content="black">', b'<meta', b'name="viewport"',

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值