python爬虫训练项目1-当当网top500（适合初学者）

最新推荐文章于 2024-04-26 03:23:26 发布

Ethan奕诚

最新推荐文章于 2024-04-26 03:23:26 发布

阅读量558

点赞数

分类专栏：爬虫项目文章标签：爬虫 python 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39338064/article/details/120803661

版权

本文记录了一位初学者使用Python爬取当当网top500书籍的过程，包括爬虫基本思路、正则表达式应用、解决re.findall的元组转换问题，并推荐了pandas数据处理的学习资源。

摘要由CSDN通过智能技术生成

这是笔者自己第一次尝试python爬虫，整体框架很早之前就完成了，但一直因为卡在“解析不出来”的困境导致拖了好几天，不过终于在今天茅塞顿开般的解决了。

爬虫基本思路：

1.用谷歌F12先了解网站的请求方式

2.对网页进行请求（requests）

3.将返回的数据进行正则表达式解析

4.对解析出的数据进行汇总处理并存储到文件中

期间遇到的坑

1.正则表达式

前期做的正则表达式解析时，我是直接复制了该网站的网页元素进行尝试解析，但到后面整体运行时一直没解析出来；后面我发现，requests返回的数据与网页元素存在一定上的差异：主要是特殊符号，这就导致你前期设计的正则表达式没法很好的运用在requests返回的数据上。

前期进行正则表达式解析时，建议用requests返回的数据进行正则解析。

正则表达式学习推荐：

1.正则表达式30分钟入门教程

2.正则表达式手册

3. Python-Core-50-Courses/第30课：正则表达式的应用.md at master · jackfrued/Python-Core-50-Courses · GitHub

2.re.findall

re.findall返回的是元组，根据实际情况进行转换为列表

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫训练项目1-当当网top500（适合初学者）

这是笔者自己第一次尝试python爬虫，整体框架很早之前就完成了，但一直因为卡在“解析不出来”的困境导致拖了好几天，不过终于在今天茅塞顿开般的解决了。爬虫基本思路：1.用谷歌F12先了解网站的请求方式2.对网页进行请求（requests）3.将返回的数据进行正则表达式解析4.对解析出的数据进行汇总处理并存储到文件中期间遇到的坑1.正则表达式前期做的正则表达式解析时，我是直接复制了该网站的网页元素进行尝试解析，但到后面整体运行时一直没解析出来；后面我发现，requests返回的
复制链接

扫一扫

专栏目录

Ethan奕诚 CSDN认证博客专家 CSDN认证企业博客

码龄7年

11: 原创

57万+: 周排名

52万+: 总排名

1万+: 访问

: 等级

122: 积分

5: 粉丝

6: 获赞

3: 评论

66: 收藏

私信

关注

热门文章

分类专栏

最新评论

【python可视化】全球猴痘数据分析
CSDN-Ada助手: 恭喜你写了第9篇博客！标题看起来非常有趣和有挑战性，我很期待阅读你的分析结果。不过，如果我可以提一个谦虚的建议的话，或许你可以在下一篇博客中分享一些关于如何使用Python进行数据可视化的技巧和实用工具，这样能够帮助更多的读者更好地理解你的分析过程。继续加油，期待你的下一篇作品！
【python可视化】奈飞公司股价预测分析
CSDN-Ada助手: 非常恭喜您撰写第10篇博客！标题【python可视化】奈飞公司股价预测分析】听起来非常有趣和实用。您的持续创作展示了您对Python可视化以及股价预测分析的深入了解。我希望您能继续保持这种努力和热情，为读者们带来更多精彩内容。对于下一步的创作建议，我敢说您已经走在了正确的道路上。或许可以考虑探索更多关于Python可视化的技巧和工具，以及更深入的股价预测分析方法。此外，您也可以考虑与读者互动，了解他们的需求并根据他们的反馈进行进一步的探索和研究。总的来说，您的博客内容非常有价值和有趣。希望您能继续保持谦虚的态度，并继续为我们带来更多有关Python可视化和股价预测分析的精彩文章！
python gui界面使用心得：tkinter vs pyqt5
JunYu_coding: 校友，我也来了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ethan奕诚 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。