关键词搜索新浪微博用户的爬虫设计

                      关键词搜索“某浪”微博用户的爬虫设计

                                                                       ----------简介+模拟登录

1 简介

任务背景:17年暑假,接了老师的一个任务,调查宗教在网络上的影响程度,我负责了微博上宗教用户信息的调查。于是,就设计了微博关键词检索用户,以获取宗教微博用户昵称、id、标签、省份、粉丝数、关注数、微博发表数、认证类别、最近微博发表的时间以及内容。采用了excel保存文件,如下格式:

编程工具 :Anconada python 2.7 

2 设计流程

             1  模拟登陆

声明一下,这个模拟登录不是我做的,我可以把具体的程序,流程给大家讲解一下,你们可以按照这个思路进行模拟登录的设计过程。我的讲解过程是按照 发现问题-----提出解决问题 的思路进行。

首先树立一个观念。爬虫程序其实是在模拟人浏览网页的行为,将看到的信息以各种格式文件保存下来。人所作的就是 第一步访问登录页面,第二步输入登录信息,第三步,网站服务器响应,人开始浏览网页获取信息。大致上可以分这个几步,第一和第二步是前提,我们设计爬虫,也必须解决如何模拟登录。某浪微博,不登录的话,使用关键词检索得到网页数据有限,而且还被禁止进入每个用户的微博主页,这就需要模拟登录网页某浪。下面具体介绍如何模拟登录。

1、登录URL

但是某浪针对反爬虫措施很变态,如图形验证码、图形加减计算,大家可以借鉴别人的方法。

1)图形验证码,可以使用一些大神公开的库文件,可以很好解决图形验证码的问题。

2)图形计算,这个我也不清楚怎么做。

3)安全的网络环境,微博登录会根据网络安全程度,改变登录验证方式。随意登录的时候,最好一个安全的、稳定的网络状态下模拟登录。否则啊,某浪会采用很多种验证方方式。

我使用了第三种方法,这是最简单的,最优效的,可以省去很多麻烦。登录URL为:http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18) ,这个网址模拟登录可以省去很多麻烦。打开这个网址看可以看到如下页面信息:

这个页面是给我们看的,不是程序的能用。爬虫设计思路和我们登录操作流程一样,需要提交各种信息。爬虫模拟登录有一点和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值