这节课我们学习了爬虫网页框架代码和媒体对象
我们在这节课运用到的第三方库有以下三个
(1)jieba库:
jieba.luct(s):分割中文词语
(2)beautifulsoup4库:
安装:pip install bs4/beautifulsoup4
常用导入方法:
导入库: from bs4 import BeautifulSoup
创建对象: soup=BeautifulSoup(文本/网页内容,'html.parser)
输出网页代码:print(soup.prettify())
(3)requests库:
方法:
r=requests.get('url'):发送请求获取资源对象,并且返回资源对象
requests.request(代码标签):构造请求
requests.head():获取网页头信息
而我这节课通过爬虫爬了以下几个网站
爬虫的代码如下
import requests
r=requests.get('网站')
r.status_code
print(r.status_code)
r.encoding
r.text
r.apparent_encoding
r.encoding