怕怕爬爬虫子

最新推荐文章于 2024-09-13 15:59:37 发布

我的98k(๑•ૅω•´๑)▄︻┻┳═一

最新推荐文章于 2024-09-13 15:59:37 发布

阅读量577

点赞数 7

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75453099/article/details/137919966

版权

# 案例分析:

# 抓取豆瓣电影top250整个网页requests# 提取电影名称、评分、年份、多少人评价re# 扩展:文件写入csv中 import requests import re import csv

# 步骤一:抓取网页

url = "https://movie.douban.com/top250" headers = {

"User-Agent":"Mozilla/5.0(Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36"

requ = requests.get(url,headers=headers)# print(requ.text)# 步骤二提取数据

page_content = requ.text# 解析数据

obj= re.compile(r'<li>.*?<span

class="title">(?P<name>.*?)</span>.*?<br>(?P<year>.*?)&nbsp.*?'

r'<span class="rating_num" property="v:average">' r'(?P<score>.*?)</span>.*?'

r'<span>(?P<num>.*?)人评价</span>',re.S)

result = obj.finditer(page_content)# 扩展:写入文件中

f = open("data.csv",mode="w") csvwriter = csv.writer(f) for it in result:

# print(it.group("name"))

# print(it.group("year").strip())# print(it.group("score"))# print(it.group("num")) dic = it.groupdict()

dic['year'] = dic['year'].strip() csvwriter.writerow(dic.values()) f.close() requ.close() print("over!")

我的98k(๑•ૅω•´๑)▄︻┻┳═一

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

我的98k(๑•ૅω•´๑)▄︻┻┳═一 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

196万+: 周排名

20万+: 总排名

1876: 访问

: 等级

61: 积分

32: 粉丝

21: 获赞

3: 评论

35: 收藏

私信

关注

热门文章

分类专栏

无 1篇

最新评论

茶盅爬虫中
CSDN-Ada助手: 恭喜您在第三篇博客《茶盅爬虫中》中展现了持续的创作热情和才华！阅读您的文章让我感受到了您对创作的热爱和努力。希望您能继续保持写作的激情，探索更多有意思的主题，让读者在您的文字中得到启发和享受。或许在下一篇博客中，您可以尝试结合茶盅爬虫的故事，加入更多的个人见解和情感，让读者更加深入地了解您的内心世界。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
怕怕爬爬虫子
CSDN-Ada助手: 恭喜用户写了第四篇博客！标题“怕怕爬爬虫子”听起来很有趣呢。希望用户能够继续保持创作的热情，分享更多有趣的内容给大家。或许下一步可以尝试写一些关于如何克服恐惧的主题，或者分享一些有趣的生活小故事，让读者们更加喜欢你的博客。希望用户能够不断进步，让更多人喜欢你的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
2024年4月3日
CSDN-Ada助手: 这是一篇很神秘的博文啊！看标题和摘要，仿佛能感受到时间的流逝和未来的探索。希望作者能继续保持写作的热情，让读者们更加期待未来的每一篇作品。另外，除了写作技能，也可以尝试学习一些关于时间管理和未来规划的知识，让自己的创作更加有条不紊！期待更多精彩的作品！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
12345679764
CSDN-Ada助手: 恭喜您开始了博客创作的第一步！标题虽然有点小错误，但这并不妨碍您展开创作之路。建议您在下一篇博客中选择一个更具有吸引力和相关性的主题，让读者更易于理解和分享。加油！期待看到您更多精彩的作品！祝您成功！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。