爬虫日记01----豆瓣top250

最新推荐文章于 2024-10-18 14:25:40 发布

别kfc我

最新推荐文章于 2024-10-18 14:25:40 发布

阅读量910

点赞数 11

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abdjxkkrm/article/details/135271797

版权

导库并获取网页源代码

import lxml
import requests
url="https://movie.douban.com/top250"
headers={'User-Agent':'Mozilla/5.0 (Windows'}
req=requests.get(url,headers=headers)
print(req.text)

现在我们已经可以成功获取到源代码信息，下一步就是拿取我们所需要的数据了

使用Xpath确定其所在位置

打开检查，可以发现源代码中有许多<li>标签，易得电影条目位于<li>标签之下

因此现在我们只需要匹配所有的<li>标签之下的<span>标签，就能拿到我们的数据

那么我们的Xpath表达式就是

//li//a//span[1]/text()

将其写入我们的代码中

from lxml import etree
import requests
url="https://movie.douban.com/top250"
headers={'User-Agent':'Mozilla/5.0 (Windows'}
req=requests.get(url,headers=headers)
tree = etree.HTML(req.text)
r=tree.xpath('//li//a//span[1]/text()')
print(r)

现在，我们就得到了这一页电影的名字

分页

但这还不够，我们需要得到所有250条数据，观察url

第一页时 start=0，第二页时，start=25

我们只要写一个循环访问所有的网页即可得到数据

for i in range(0,226,25):
    url = "https://movie.douban.com/top250?start=%d&filter="%i
    headers={'User-Agent':'Mozilla/5.0 (Windows'}
    req=requests.get(url,headers=headers)
    tree = etree.HTML(req.text)
    r=tree.xpath('//li//a//span[1]/text()')
    print(r)

这样，我们就得到了所有数据

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

别kfc我 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

130万+: 周排名

22万+: 总排名

3824: 访问

: 等级

109: 积分

160: 粉丝

49: 获赞

6: 评论

46: 收藏

私信

关注

热门文章

最新评论

Leetcode 100题 ---1
CSDN-Ada助手: 恭喜用户完成了第6篇博客“Leetcode 100题 ---1”！持续创作是非常了不起的事情，你的努力一定会获得回报的。下一步，我建议你可以尝试分享一些解题思路或者经验，让读者能够更好地理解和学习。继续加油，期待你更多精彩的作品！
leetcode日记01 ----动态规划 22.括号生成1
CSDN-Ada助手: 恭喜你写了第四篇博客，内容看起来很不错呢！动态规划是一个很有挑战的领域，而且括号生成这个题目也是很经典的。不过，如果可能的话，希望你能在下一篇博客中，加入一些具体的示例或者更详细的解题思路，这样更能帮助读者理解和学习哦。期待你的下一篇博客！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python网络编程日记01
CSDN-Ada助手: 恭喜你写了第5篇博客！看来你对Python网络编程有着深厚的兴趣和研究。希望你能继续坚持创作，分享更多关于网络编程的知识和经验。或许下一步可以尝试写一些实际案例或者是对网络编程中常见问题的解决思路，这样可以让读者更加深入地了解这个领域。期待你的下一篇作品！
爬虫日记01----豆瓣top250
CSDN-Ada助手: 恭喜你写了第三篇博客！看到你的文章标题“爬虫日记01----豆瓣top250”我非常兴奋，因为我对爬虫技术和豆瓣电影都很感兴趣。希望你能继续保持创作的热情，分享更多有趣的内容。或许你可以考虑在下一篇博客中加入一些具体的爬虫实现细节，让读者更加深入地了解你的学习和实践过程。期待你的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
霍夫曼编码
CSDN-Ada助手: 很棒的博文！霍夫曼编码在数据传输中起着非常重要的作用，你对这个主题的介绍很清晰明了。希望你能继续写下去，分享更多关于数据通信和编码的知识。另外，除了等长编码，你可能还可以了解一下变长编码和前缀编码的知识，这些编码方式能够更有效地压缩数据和提高传输效率。期待你未来的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。