难点:
1)受到请求频率的限制,需要采用一些方法来避免限制,例如:time.sleep等
2)通常来说,需要设置cookie,通过设置url,模拟网页发送请求,获得网页内容。缺点:需要对数据进行预处理,并且需要找到网页url的逻辑,cookie。
3)经过测试,当前微博的评论,不能全部提取。本文通过实验得到结果,微博评论通常只能抓到200条数据后,就会被限制。
基于上述问题,为了爬取到微博的评论,本文爬取的思路采取通过微博API进行调用相关接口,具体实现步骤如下:
三、🌍微博API爬取步骤🌍
1.🌕基础信息配置 🌕
1.1注册微博开放平台
登录微博开放平台,如下链接。注册一个账号。
1.2.创建一个应用
在顶部【微连接】中,创建一个微链接。
1.3获取token
查看创建应用的App Key,App Secret
【我的应用】->【应用信息.基本信息】
配置【高级信息】,两项都设置为
https://api.weibo.com/oauth2/default.html
经过上面的配置后,我们将获得的App Key,App Secret发送给客户端,返回给用户特定的token值,拿到这个token之后,我们才能调用API拿到数据。
导入包,可以去github上下载sinaweibopy3:https://github.com/olwolf/sinaweibopy3
import webbrowser
from sinaweibopy3.sinaweibopy3 import APIClient
其中XXXXX替换为创建应用的App Key,App