python爬虫训练项目1-当当网top500(适合初学者)

本文记录了一位初学者使用Python爬取当当网top500书籍的过程,包括爬虫基本思路、正则表达式应用、解决re.findall的元组转换问题,并推荐了pandas数据处理的学习资源。
摘要由CSDN通过智能技术生成

这是笔者自己第一次尝试python爬虫,整体框架很早之前就完成了,但一直因为卡在“解析不出来”的困境导致拖了好几天,不过终于在今天茅塞顿开般的解决了。

爬虫基本思路:

1.用谷歌F12先了解网站的请求方式

2.对网页进行请求(requests)

3.将返回的数据进行正则表达式解析

4.对解析出的数据进行汇总处理并存储到文件中

期间遇到的坑

1.正则表达式

前期做的正则表达式解析时,我是直接复制了该网站的网页元素进行尝试解析,但到后面整体运行时一直没解析出来;后面我发现,requests返回的数据与网页元素存在一定上的差异:主要是特殊符号,这就导致你前期设计的正则表达式没法很好的运用在requests返回的数据上。

前期进行正则表达式解析时,建议用requests返回的数据进行正则解析。

正则表达式学习推荐:

1.正则表达式30分钟入门教程

2.正则表达式手册

3.  Python-Core-50-Courses/第30课:正则表达式的应用.md at master · jackfrued/Python-Core-50-Courses · GitHub 

2.re.findall

re.findall返回的是元组,根据实际情况进行转换为列表

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ethan奕诚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值