这是笔者自己第一次尝试python爬虫,整体框架很早之前就完成了,但一直因为卡在“解析不出来”的困境导致拖了好几天,不过终于在今天茅塞顿开般的解决了。
爬虫基本思路:
1.用谷歌F12先了解网站的请求方式
2.对网页进行请求(requests)
3.将返回的数据进行正则表达式解析
4.对解析出的数据进行汇总处理并存储到文件中
期间遇到的坑
1.正则表达式
前期做的正则表达式解析时,我是直接复制了该网站的网页元素进行尝试解析,但到后面整体运行时一直没解析出来;后面我发现,requests返回的数据与网页元素存在一定上的差异:主要是特殊符号,这就导致你前期设计的正则表达式没法很好的运用在requests返回的数据上。
前期进行正则表达式解析时,建议用requests返回的数据进行正则解析。
正则表达式学习推荐:
2.正则表达式手册
3. Python-Core-50-Courses/第30课:正则表达式的应用.md at master · jackfrued/Python-Core-50-Courses · GitHub
2.re.findall
re.findall返回的是元组,根据实际情况进行转换为列表