python利用新浪API实现数据的抓取

最新推荐文章于 2024-08-22 02:30:23 发布

嗨学编程

最新推荐文章于 2024-08-22 02:30:23 发布

阅读量1.6k

点赞数 1

分类专栏： Python爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fei347795790/article/details/91439689

版权

Python爬虫专栏收录该内容

678 篇文章 330 订阅

订阅专栏

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

1.　首先来看看最后我们得到的是什么结果，是不是你想要了解的东西，再决定是否往下读。

我主要抓取了大概4天的数据，图上可以看的出来大概有360万条数据，由于是在自己的电脑上爬取做数据的，有时候晚上断网了就间断了，所以大概一天可以爬取有100万左右的最新微博数据（因为我调用的是最新的微博APIpublic_timeline)

API文档当中定义了很多返回的类型（以json数据格式返回，我选取了一些我认为重要的信息抓取下来_如图所示_:　大概有id号，所在位置，粉丝数，发的微博内容，发微博的时间等等。　当然这些数据都可以根据自己的需要进行定制。)

大概就是这些内容，你如果认为这对你有点帮助，就请继续读下去... 第一次写博客有些啰嗦

2.　前期准备

我们需要的东西：

数据库:　mongodb（可以使用客户端MongoBooster)

开发环境：　Python2.7(我用的IDE是Pycharm)

一个新浪开发者账号：　用自己的新浪微博账号注册就行（后面会讲）

需要的库：requests和pymongo(这些都可以在Pycharm中下载)

2.1　mongodb的安装

MongoDB是一个高性能，开源，无模式的文档型数据库，是当前NoSql数据库中比较热门的一种。它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发。Mongo的官方网站地址是：http://www.mongodb.org/，读者可以在此获得更详细的信息。

2.2　新浪开发者账号的注册方法

注册新浪微博账号（163邮箱、手机号）

创建完毕需要填写手机号验证

进入新浪开放者平台：http://open.weibo.com/

点击继续创建

初次创建应用需要填写如下信息：

代码实现

有了token之后，实现抓取数据就十分简单了

能抓取数据的多少就取决于你的token权限了

接下来就是利用API来获取数据了：新建一个文件weibo_run.py

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。