爬虫(三)lxml+requests(豆瓣Top250电影)

回家之后就不想学习了…这次用的是lxml库,因为听说比起BeautifulSoup它的速度更快,然后就想了解一下。(全部的代码在最下面)import库from lxml import etreeimport requestsimport json# from time import sleep这是要用到的库。requests请求html,lxml解析html文档,然后得到的数...
摘要由CSDN通过智能技术生成

回家之后就不想学习了…

这次用的是lxml库,因为听说比起BeautifulSoup它的速度更快,然后就想了解一下。(全部的代码在最下面)

import库
from lxml import etree
import requests
import json
# from time import sleep

这是要用到的库。requests请求html,lxml解析html文档,然后得到的数据通过json存储在json文件。

分析豆瓣网页

第一页:https://movie.douban.com/top250
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=

发现一页有25个电影介绍,每多一页start=的数目迁移25。因此尝试:

发现成功后,分析网页源代码。
这次抓取的只是电影名、排名、分数、和简介。还是跟之前那样子通过Chrome的审查元素抓取Xpath路径。
分别有:

# info
# //*[@id="content"]/div/div[1]/ol/li[1]/div/div[1]/em index
# //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1] name
# //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[2] rate
# //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[2]/span quote

这是第一个电影的信息,可以看出来我们要抓取的内容都在一个统一的节点div上。而每个电影都在不同的li里面。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值