python——爬取猫眼电影(前篇)
<font color=“black” size 4>小编今天学习了爬取猫眼电影榜单的方法,小编也搞清楚了一些库????
用到的库:bs4 requests
bs4:网页选择器,专门筛选及提取数据的 安装:pip install bs4
from bs4 import BeautifulSoup
BeautifulSoup 是从HTML或TML文件中提取的数据的一个库,常用于爬虫中
虽然BeautifulSoup是解析HTML或TML的,但是他需要依赖于其他的解析库,如lxml等
解析库 使用方法 |
html.parser | BeautifulSoup(content,'html.parser') | python的标准库解释器,速度一般 |
lxml HTML | BeautifulSoup(content,'lxml') | 快速,稳定 |
lxml TML | BeautifulSoup(content,'lxml-xml')或 BeautifulSoup(content,'xml') | 快速,唯一一支支持xml解析的 |
BeautifulSoup 中的参数是html的数据,需要用requests.get(url).text(返回html数据),才能进行解析。
requests:网络请求包 通过requests.get(url).text 可以拿到html数据
pip install requests
import requests
用于请求网络的,有时候碰到反爬虫,需要调用请求头,模拟成浏览器访问网站,拿到数据。
lxml:也是一种解析,用于网页解析——解析库吧
对于用requests请求网络获取到的数据,先用etree进行整理,得到html数据,再进行xpath
import requests
import lxml
response = requests.get(url)
#得到数据,需要进行整理,得到html数据
html = etree.HTML(response)
之后便可以通过标签进行确定了,得到所需数据。
好了,今天小编就先介绍到这里,明天或者后天再来补齐代码(明天要写matlab???)吧????