继续爬xinlang

最开始用的webmagic,后来看scrapy方便实用就用scrapy了 ,后来碰到个编码问题,具体说下。

1.爬取时新浪不让爬,然后每次重定向到robot.txt的一个路径。后来索性就爬取整个网页,但是爬取了以后发现里面很多utf8编码,没找到解编码的方法,因为爬取的整个网页中有些部分是汉字可以显示的,有些做了jsp处理的就不能显示汉字了。网上搜的时候发现了一个新东西娇selenium,说是爬取方便,傻瓜式爬取,拿来试试啊看。selenium很好安装,一条命令就可以。

链接为:http://blog.csdn.net/eastmount/article/details/50720436

2.继续介绍模拟登录爬取新浪微博,就是上面提到的selenium。

(selenium真是个好工具,调用driver就自动访问url。)

首先,main函数中输入基本信息,比如登录用户名密码。比如搜索的热点词汇。

其次,模拟登录,保留cookie。

第三,driver访问搜索主页,模拟点击行为,进入热点推荐页面,根据网页结构利用XPath,根据?page=实现翻页,并对每页进行抓取。

3.下一步就是要判断持续爬取的数据是否重复,把用户写入数据库,把模拟发贴行为写入模拟发贴文件内,点击模拟发贴,形成整个过程。

4.存在问题:a:热点数据如何获得,是通过新浪上的所有热点数据或者给定热点话题名称列表   b:手动执行的程序太多:热点话题(可自动实现),运行程序(自动实现可以解决),模拟发贴行为(试试看selenium可以实现否)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值