自己编写一个简单的微博爬虫

最新推荐文章于 2024-05-20 21:35:11 发布

feiqiangs

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量2k

点赞数

分类专栏： Python 文章标签： Python爬虫微博爬虫

本文链接：https://blog.csdn.net/dumpling5232/article/details/52098456

版权

本文介绍了如何编写一个简单的微博爬虫，包括模拟登陆微博以绕过登录限制，处理IP请求频率过高问题，以及提升爬虫的健壮性。在模拟登陆中，通过加载手动获取的cookie或实现模拟登陆功能。对于IP限制，建议使用代理IP，并展示如何在代码中更换代理。此外，还讨论了爬虫的持久化存储和异常处理策略，以及应对微博页面变化的模块化设计。

摘要由CSDN通过智能技术生成

自己编写一个简单的微博爬虫

很多做社交媒体数据分析的同学需要采集一些新浪微博上的数据，新浪微博虽然有提供api，但免费的api对获取的数据项和获取的频率都有很大的限制，商业版api据说限制较少，但是作为屌丝学生党拿来那么多钱买买商业版的api？！！！用类似于火车头采集器这种工具又很难解决问题，因此我们往往需要自己编写微博爬虫。下面我简单介绍一下我在编写微博爬虫期间遇到的问题和我的解决思路。

微博登陆问题

爬虫需先登录到新浪微博，否则微博一直返回登录页面不给数据。目前的解决办法有：

先手动用浏览器登录，然后导出cookie ，再写脚本加载cookie到爬虫的http协议里，这样就获取了session 和cookie，解决了身份认证的问题。
就是本文要介绍的模拟登陆。

注：以下模拟登陆部分是参考文章：python模拟新浪微博登陆功能(新浪微博爬虫) 所写，我在该文章的基础上做了一些小改动。

第一种方案操作较为繁琐，尤其是想要用多个微博马甲轮询，降低马甲被封概率的话。第二种方案就可以实现批量马甲登录，但是有的账号登录的时候可能需要输入验证码，验证码识别起来比较困难，目前我还没有解决这个问题。

下面是我的模拟登陆代码

WeiboLogin.py：等一了登录类 WeiboLogin.最后调用WeiboLogin.Login()方法会返回一个带有当前马甲会话cookie的opener。多个马甲登录模拟登陆的话，可以实例化多个WeiboLogin，调用它们的Login()方法返回不同的opener 带有各自的会话cookie，降低账号被封的风险。

import urllib2,traceback,cookielib
import WeiboEncode
import WeiboSearch
class WeiboLogin:
    def __init__(self, user, pwd, enableProxy=False):
        "初始化WeiboLogin，Proxy默认关闭"  
        print "Initializing WeiboLogin..."
        self.userName = user
        self.passWord = pwd
        self.enableProxy = enableProxy
        self.cookiejar = cookielib.LWPCookieJar()#建立cookie

        self.serverUrl = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=&rsakt=mod&client=ssologin.js(v1.4.11)&_=1379834957683"
        self.loginUrl = "http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.11)"
        self.postHeader = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}

    def Login(self):
        #"登陆程序" 
        ERROR_COUNT =0
        opener = self.EnableCookie()
        while True:
            if ERROR_COUNT>3:
                print 'login error!'
                return False