上次写了豆瓣图书Top250的爬虫,趁热打铁,在生锈的大脑还能记住点什么的时候把豆瓣电影Top250的爬虫也写下来。
写在前面:
本来以为这个爬虫1个小时就能搞掂,最后出现各种各样的问题,又生病杂七杂八,写了好久,记几点经验:
1、页面解析完后,抓取标签还是用findall方法,在抓取导演部分时出错,最后改用re正则表达式匹配(下面细讲);
2、上次将数据存入txt文档中,这次尝试存入excel,用到csv模块;
3、页面循环加在主程序中,再将数据append进列表,得到10个列表,写入excel出错;
4、以'wt'模式写入excel的数据每行之间都出现空行;
5、得到的csv文件在excel中都是乱码,首先用notepad++打开转utf-8无bom格式为utf-8格式。
错误1:
print数据检验时出现
element a at <0x39a9a80>或者类似 Element a at 0x???????,这样的一个值,其实它是一个列表,然后列表中的每一个值都是一个字典。