最开始用的webmagic,后来看scrapy方便实用就用scrapy了 ,后来碰到个编码问题,具体说下。
1.爬取时新浪不让爬,然后每次重定向到robot.txt的一个路径。后来索性就爬取整个网页,但是爬取了以后发现里面很多utf8编码,没找到解编码的方法,因为爬取的整个网页中有些部分是汉字可以显示的,有些做了jsp处理的就不能显示汉字了。网上搜的时候发现了一个新东西娇selenium,说是爬取方便,傻瓜式爬取,拿来试试啊看。selenium很好安装,一条命令就可以。
链接为:http://blog.csdn.net/eastmount/article/details/50720436
2.继续介绍模拟登录爬取新浪微博,就是上面提到的selenium。
(selenium真是个好工具,调用driver就自动访问url。)
首先,main函数中输入基本信息,比如登录用户名密码。比如搜索的热点词汇。
其次,模拟登录,保留cookie。
第三,driver访问搜索主页,模拟点击行为,进入热点推荐页面,根据网页结构利用XPath,根据?page=实现翻页,并对每页进行抓取。
3.下一步就是要判断持续爬取的数据是否重复,把用户写入数据库,把模拟发贴行为写入模拟发贴文件内,点击模拟发贴,形成整个过程。
4.存在问题:a:热点数据如何获得,是通过新浪上的所有热点数据或者给定热点话题名称列表 b:手动执行的程序太多:热点话题(可自动实现),运行程序(自动实现可以解决),模拟发贴行为(试试看selenium可以实现否)