python爬取猫眼电影排行

完整的代码如下在这里:https://nbviewer.jupyter.org/github/DRNTT/Spider/blob/master/ch3/maoyan.py
闲着没事,把解析html中的正则方法改用了XPath与BeautifulSoup,只能说各有各的优点吧。
正则的话,提取信息可以连贯,一次性提取出所有需要的信息,当然前提是你的正则式子没有写错,所以说正则写起来相比XPath与BeautifulSoup来说要复杂一下,提取出错后,调试也比较麻烦一下。
XPath的话,相比BeautifulSoup提取信息的时候,比较容易理解,理解好几个规则,提取信息的代码写起来非常流畅也非常快,感觉唯一一点不足就是说在嵌套查询的时候,虽然可以通过下标什么的来定位,但是比起BeautifulSoup的find()与find_all()方法差了很多。
BeautifulSoup:这是我写下来,感觉代码最简单的,也比正则容易理解。本身网页代码的结构就是层层嵌套的,相比前面的两个动不动就是获取所有的匹配节点,这种嵌套查询的方式,感觉更好操作一些。
以上皆为个人观点,若有不对,还请赐教。

XPath提取:

def parse_one_page_XPath(html):
    html = etree.HTML(html)
    rank = html.xpath('//dd/i/text()')
    # print(rank)
    title = html.xpa
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值