python nlp

natural language process(NLP)自然语言理解


通过 pip install nltk进行安装

输入import nltk

      nltk.downdowan()


因为文件不大,可以全部安装

现在开始抓取web页面

我们引入urllib包,我使用的是python3.6,和版本2 在引入时有所区别。代码如下



urllib urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应

urllib.request可以用来发送request和获取request的结果

response=request.urlopen('http://php.net/')#response返回一个HTTPResponse类型的对象

它主要包含的方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性。 得到这个对象之后,赋值为 response ,然后就可以用 response 调用这些方法和属性,得到返回结果的一系列信息。69

response.read() 就可以得到返回的网页内容, response.status 就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。

urllib.request.urlopen()API

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 

data 参数是可选的,如果要添加 data ,它要是字节流编码格式的内容,即 bytes 类型,通过 bytes() 函数可以进行转化,另外如果你传递了这个 data 参数,它的请求方式就不再是 GET 方式请求,而是 POST 



上面的代码得到许多HTML标签,无法理解,使用BeautifulSoup进行清洗

 
from urllib import request
from bs4 import BeautifulSoup
response=request.urlopen( 'http://php.net/') #response返回一个HTTPResponse类型的对象
soup=BeautifulSoup(response.read(), "html5lib" )
text=soup.get_text( strip = True )
print(text)
这样就得到了文本内容



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值