前言
微博数据基本上可以说是社交圈里面最大的了。但是单纯的使用urllib,是不足以获取数据的。
今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据。
查找的过程
打开Chrome 的F12之后,刷新页面,真的是眼花缭乱的数据流啊,飞流直下。找了好久,发现大部分数据都是通过JavaScript脚本渲染到页面上的。
这也就是为什么单纯的使用urllib抓不到的原因了。因为这是动态页面,而Urllib则是抓取静态页面。明白了这一点,就找到了方向了。
那就是找到数据源接口。后来经过我的仔细审核,发现了类似于这样的一个URL。
http://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=103505&is_search=