新浪微博爬虫

最新推荐文章于 2020-11-26 04:27:14 发布

Wendy_毛毛虫

最新推荐文章于 2020-11-26 04:27:14 发布

阅读量6.7k

点赞数 1

分类专栏：爬虫文章标签：爬虫微博 sina weibo

本文链接：https://blog.csdn.net/dwenjun/article/details/79236927

版权

本文详细介绍了如何爬取新浪微博的数据，包括博文、账号信息、发布时间等，分享了一款Python爬虫代码，适用于Linux环境，并提供了爬虫项目的GitHub链接。文章还提到了预登陆、获取账号URL、解析页码等关键步骤，以及遇到问题的解决方案。

摘要由CSDN通过智能技术生成

详解新浪微博爬取过程

前言

因为科研需要，我从16年8月起就开始跟微博数据打交道，所以从那时开始就不得不想尽办法爬取微博数据，我爬取的内容主要是：博文、发博账号、发文时间、爬取时间、点赞数/评论数/转发数，详情如图1。经过长时间的总结和实验，我完善了切实可行的爬虫代码，代码被我放在github上，同样你也可以在我的个人博客open-source里面查看到weibospider项目。

欢迎大家fork和star我的项目,项目地址，谢谢！

环境

linux+Python3.6+mongo

但是万变不离其中，更改一下便可以用于其他语言和环境。

预登陆

我们都知道微博数据需要先登录才能爬取，而我们解决的办法是使用微博预登陆获得登录需要的必要参数，这一部分在/Prelogin.py 实现的。

def login_weibo(nick , pwd) :
    #==========================获取servertime , pcid , pubkey , rsakv===========================
    # 预登陆请求，获取到若干参数
    prelogin_url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.15)&_=1400822309846' % nick
    preLogin = getData(prelogin_url)
    # 下面获取的四个值都是接下来要使用的
    servertime = re.findall('"servertime":(.*?),' , preLogin.decode('utf-8'))[0]
    pubkey = re.findall('"pubkey":"(.*?)",' , preLogin.decode('utf-8'))[0]
    rsakv = re.findall('"rsakv":"(.*?)",' ,preLogin.decode('utf-8'))[0]
    nonce = re.findall('"nonce":"(.*?)",' , preLogin.decode('utf-8'))[0]

    #===============对用户名和密码加密================
    # 好，你已经来到登陆新浪微博最难的一部分了，如果这部分没有大神出来指点一下，那就真是太难了，我也不想多说什么，反正就是各种加密，最后形成了加密后的su和sp
    su = base64.b64encode(bytes(urllib.request.quote(nick) , encoding = 'utf-8'))
    rsaPublickey = int(pubkey , 16)
    key = rsa.PublicKey(rsaPublickey , 65537)
    #稍微说一下的是在我网上搜到的文章中，有些文章里并没有对拼接起来的字符串进行bytes，这是python3的新方法好像是。rsa.encrypt需要一个字节参数，这一点和之前不一样。其实上面的base64.b64encode也一样