微博json文件_爬虫:新浪微博爬虫的最简单办法

最新推荐文章于 2024-09-16 11:35:26 发布

weixin_39675963

最新推荐文章于 2024-09-16 11:35:26 发布

阅读量573

点赞数

文章标签：微博json文件

本文介绍了一种简单方法来抓取新浪微博的数据，包括特定用户的微博及回复。通过分析请求，作者发现移动端网页（m站）的某个请求包含所需信息，避免了处理加密的web站请求。代码实现包括获取用户信息、分页采集微博、采集微博评论等，最终数据可查看和下载。完整代码可在作者的开源项目中获取。

摘要由CSDN通过智能技术生成

前言：本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据，主要是采集指定微博用户发布的微博以及微博收到的回复等内容，可以通过配置项来调整爬取的微博用户列表以及其他属性。

既然说是最简单的办法，那么我们就得先分析微博爬虫可能选择的几个目标网址，首先肯定是最常见的web网站了

还有就是m站，也就是移动端网页

以及一个无法旧版本的访问入口了，首先可以排除web站了，这个是最麻烦的，它的请求是被js加密过，处理起来很麻烦

那我们为何不退而求其次呢，我们观察下这个m站的请求

可以发现在某个请求里可以发现我们需要的微博信息，既然这样就好办了，我们就可以着手我们的代码了

首先是获取用户信息，通过用户信息获取用户的微博总数，这样就可以知道总共多少页的数据了，代码如下所示

def get_json(self, params):
        """获取网页中json数据"""
        url = 'https://m.weibo.cn/api/container/getIndex?'
        r = requests.get(url, params=params, cookies=self.cookie)
        return r.json()
    def get_page_count(self):
        """获取微博页数"""
        try:
            weibo_count = self.user['statuses_count']
            page_count = int(math.ceil(weibo_count / 10.0))
            return page_count
        except KeyError:
            sys.exit(u'程序出错')
    def get_user_info(self):
        """获取用户信息"""
        params = {'containerid': '100505' + str(weibo_config['user_id'])}
        js = self.get_json(params)
        if js['ok']:
            info = js['data']['userInfo']
            user_info = {}
            user_info['id'] = weibo_config['user_id']
            user_info['screen_name'] = info.get('screen_name', '')
            user_info['gender'] = info.get('gender', '')
            user_info['statuses_count'] = info.get('statuses_count', 0)
            user_info['followers_count'] = info.get('followers_count', 0)
            user_info['follow_count'] = info.get('follow_count', 0)
            user_info['description'] = info.get('description', '')
            user_info['profile_url'] = info.get('profile_url', '')
            user_info['profile_image_url'] = info.get('profile_image_url', '')
            user_info['avatar_hd'] = info.get('avatar_hd', '')
            user_info['urank'] = info.get('urank', 0)
            user_in

最低0.47元/天解锁文章

weixin_39675963

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫