natural language process(NLP)自然语言理解
通过 pip install nltk进行安装
输入import nltk
nltk.downdowan()
因为文件不大,可以全部安装
现在开始抓取web页面
我们引入urllib包,我使用的是python3.6,和版本2 在引入时有所区别。代码如下
urllib urllib的request
模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应
urllib.request可以用来发送request和获取request的结果
response=request.urlopen('http://php.net/')#response返回一个HTTPResponse类型的对象
它主要包含的方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性。 得到这个对象之后,赋值为 response ,然后就可以用 response 调用这些方法和属性,得到返回结果的一系列信息。69
response.read() 就可以得到返回的网页内容, response.status 就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。
urllib.request.urlopen()API
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
data 参数是可选的,如果要添加 data ,它要是字节流编码格式的内容,即 bytes 类型,通过 bytes() 函数可以进行转化,另外如果你传递了这个 data 参数,它的请求方式就不再是 GET 方式请求,而是 POST
上面的代码得到许多HTML标签,无法理解,使用BeautifulSoup进行清洗
print(text)
这样就得到了文本内容