python爬取猫眼电影排行

最新推荐文章于 2024-04-18 07:00:00 发布

ReScale

最新推荐文章于 2024-04-18 07:00:00 发布

阅读量976

点赞数

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Reserve_Scale/article/details/89892982

版权

完整的代码如下在这里：https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch3/maoyan.py
闲着没事，把解析html中的正则方法改用了XPath与BeautifulSoup，只能说各有各的优点吧。
正则的话，提取信息可以连贯，一次性提取出所有需要的信息，当然前提是你的正则式子没有写错，所以说正则写起来相比XPath与BeautifulSoup来说要复杂一下，提取出错后，调试也比较麻烦一下。
XPath的话，相比BeautifulSoup提取信息的时候，比较容易理解，理解好几个规则，提取信息的代码写起来非常流畅也非常快，感觉唯一一点不足就是说在嵌套查询的时候，虽然可以通过下标什么的来定位，但是比起BeautifulSoup的find()与find_all()方法差了很多。
BeautifulSoup：这是我写下来，感觉代码最简单的，也比正则容易理解。本身网页代码的结构就是层层嵌套的，相比前面的两个动不动就是获取所有的匹配节点，这种嵌套查询的方式，感觉更好操作一些。
以上皆为个人观点，若有不对，还请赐教。

XPath提取：

def parse_one_page_XPath(html):
    html = etree.HTML(html)
    rank = html.xpath('//dd/i/text()')
    # print(rank)
    title = html.xpa

最低0.47元/天解锁文章

ReScale

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬取猫眼电影排行

完整的代码如下在这里：https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch3/maoyan.py闲着没事，把解析html中的正则方法改用了XPath与BeautifulSoup，只能说各有各的优点吧。正则的话，提取信息可以连贯，一次性提取出所有需要的信息，当然前提是你的正则式子没有写错，所以说正则写起来相比XPath与B...
复制链接

扫一扫