趣味学python（009）

大笨钟47

于 2019-07-22 22:16:28 发布

阅读量92

点赞数

分类专栏： python（学习爬虫）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45033722/article/details/96904211

版权

python（学习爬虫）专栏收录该内容

19 篇文章 0 订阅

订阅专栏

python——爬取猫眼电影（前篇）

<font color=“black” size 4>小编今天学习了爬取猫眼电影榜单的方法,小编也搞清楚了一些库????

用到的库：bs4 requests

bs4：网页选择器，专门筛选及提取数据的安装：pip install bs4

from bs4 import BeautifulSoup

BeautifulSoup 是从HTML或TML文件中提取的数据的一个库，常用于爬虫中
虽然BeautifulSoup是解析HTML或TML的，但是他需要依赖于其他的解析库，如lxml等

解析库使用方法

html.parser | BeautifulSoup(content,'html.parser') | python的标准库解释器，速度一般

lxml HTML | BeautifulSoup(content,'lxml') | 快速，稳定

lxml TML | BeautifulSoup(content,'lxml-xml')或 BeautifulSoup(content,'xml') | 快速，唯一一支支持xml解析的

BeautifulSoup 中的参数是html的数据，需要用requests.get(url).text（返回html数据），才能进行解析。

requests：网络请求包通过requests.get(url).text 可以拿到html数据
pip install requests

import requests

用于请求网络的，有时候碰到反爬虫，需要调用请求头，模拟成浏览器访问网站，拿到数据。

lxml：也是一种解析，用于网页解析——解析库吧

对于用requests请求网络获取到的数据，先用etree进行整理，得到html数据，再进行xpath

import requests
import lxml
response = requests.get(url)
#得到数据，需要进行整理，得到html数据
html = etree.HTML(response)

之后便可以通过标签进行确定了，得到所需数据。

好了，今天小编就先介绍到这里，明天或者后天再来补齐代码（明天要写matlab???）吧????

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
趣味学python（009）

python——爬取猫眼电影（前篇）<font color=“black” size 4>小编今天学习了爬取猫眼电影榜单的方法,小编也搞清楚了一些库
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。