python nlp

最新推荐文章于 2024-09-29 14:04:57 发布

我爱玩泥巴

最新推荐文章于 2024-09-29 14:04:57 发布

阅读量430

点赞数

分类专栏： NLP

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

natural language process(NLP)自然语言理解

通过 pip install nltk进行安装

输入import nltk

nltk.downdowan()

因为文件不大，可以全部安装

现在开始抓取web页面

我们引入urllib包，我使用的是python3.6，和版本2 在引入时有所区别。代码如下

urllib urllib的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应

urllib.request可以用来发送request和获取request的结果

response=request.urlopen('http://php.net/')#response返回一个HTTPResponse类型的对象

它主要包含的方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性。得到这个对象之后，赋值为 response ，然后就可以用 response 调用这些方法和属性，得到返回结果的一系列信息。69

response.read() 就可以得到返回的网页内容， response.status 就可以得到返回结果的状态码，如200代表请求成功，404代表网页未找到等。

urllib.request.urlopen()API

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

data 参数是可选的，如果要添加 data ，它要是字节流编码格式的内容，即 bytes 类型，通过 bytes() 函数可以进行转化，另外如果你传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST

上面的代码得到许多HTML标签，无法理解，使用BeautifulSoup进行清洗

from urllib import request

from bs4 import BeautifulSoup

response=request.urlopen( 'http://php.net/') #response返回一个HTTPResponse类型的对象

soup=BeautifulSoup(response.read(), "html5lib" )

text=soup.get_text( strip = True )

print(text)

这样就得到了文本内容

我爱玩泥巴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我爱玩泥巴 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

11万+: 周排名

77万+: 总排名

11万+: 访问

: 等级

802: 积分

16: 粉丝

21: 获赞

5: 评论

100: 收藏

私信

关注

热门文章

分类专栏

最新评论

模型搭建与评估
YELLOES: 你说你给个数据集不行啊
Pandas 第8章分类数据
ctotalk: thanks,欢迎关注一起交流
Python解决unicode编码 \xe7\xbb\x87转化为中文
火目小码农: [code=python] a = bytes([0xe4,0xb8,0xad,0xe6,0x96,0x87]) print(a.decode('utf-8')) # 输出： # 中文 [/code]
Python解决unicode编码 \xe7\xbb\x87转化为中文
火目小码农: [code=python] a = bytes("中文", 'utf-8') print(a) print(a.decode('utf-8')) # b'\xe4\xb8\xad\xe6\x96\x87' # 中文 [/code]
Python解决unicode编码 \xe7\xbb\x87转化为中文
mumumuyanyanyan: 为啥我直接复制粘贴，得到的结果是错的 exec(code_obj, self.user_global_ns, self.user_ns) File "<ipython>", line 4, in <module> sss = ss.decode() UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe5 in position 31: invalid continuation byte b'\xe7\xbb\x87\xe7\x89\xa9 \xe7\xbb\x93\xe5\x90\x88\xe9\x83\xa8 \xe7\xbb\x93\xe6\x9e\x84 \xe5\x86\x85\xe7\xae\xa1 \xe5 \xa0 \xa0 \x88\x86\xe9\x9a\x94 \xe8\x86\xa8\xe8\x83\x80 \xe8\xa3\x85\xe7\xbd\xae \xe4\xb8\xbb\xe4\xbd\x93 \xe6\xa8\xaa\xe5\x90\x91 \xe6\xb0\x94\xe5\x9b\x8a'

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。