小白分析3:豆瓣电影top250爬虫(静态页面)

本文记录了作者编写豆瓣电影Top250爬虫的过程,遇到的困难包括页面解析、数据存储到Excel的问题以及解决方法。在抓取导演信息时,由于页面结构复杂,最终采用了正则表达式匹配。同时,文章提到了数据存储为CSV时的编码问题及解决方案。
摘要由CSDN通过智能技术生成

上次写了豆瓣图书Top250的爬虫,趁热打铁,在生锈的大脑还能记住点什么的时候把豆瓣电影Top250的爬虫也写下来。


写在前面:

本来以为这个爬虫1个小时就能搞掂,最后出现各种各样的问题,又生病杂七杂八,写了好久,记几点经验:

1、页面解析完后,抓取标签还是用findall方法,在抓取导演部分时出错,最后改用re正则表达式匹配(下面细讲);

2、上次将数据存入txt文档中,这次尝试存入excel,用到csv模块;

3、页面循环加在主程序中,再将数据append列表,得到10个列表,写入excel出错;

4、以'wt'模式写入excel的数据每行之间都出现空行;

5、得到的csv文件在excel中都是乱码,首先用notepad++打开转utf-8无bom格式为utf-8格式。


错误1:

print数据检验时出现

element a at <0x39a9a80>或者类似 Element a at 0x???????,这样的一个值,其实它是一个列表,然后列表中的每一个值都是一个字典。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值