简介
百度迁徙
之前瞎投的中国人口地理学会的汇报居然中了,本菜鸡居然居然居然被邀请上去汇报。。。
这几天因为要准备汇报的PPT,所以又登上去看看百度迁徙大数据,发现数据更新了!
从9月22日开始到昨天(10月20日)的数据都有。然后我就拿上半年写的代码试着爬取了一下,发现旧的代码不太适用了,于是乎我研究了一下就写了这篇博客。
旧代码及爬取效果可以看我前几篇文章,链接在下面。
基于python的百度迁徙1——迁入、迁出数据(附代码)
基于python的百度迁徙2——迁徙规模指数(附代码)
基于python的百度迁徙3——城内出行强度(附代码)
基于前几篇博文的代码改变
我研究了一下,主要是requests返回的文本数据和以前不一样了。
新返回的文本好像在一开始的地方多了一个字母(之前什么样具体我也忘记了),如下图。
所以,在进行json化处理之前,需要重新提取一下文本。也就是说把之前的r=response.text[3:-1]
全部更改为r=response.text[4:-1]
。意思就是说之前提取的是从第3个字符到倒数第2个字符之间的内容,现在要提取第4个字符到倒数第2个字符之间的内容。
更更更简单的说,就是按ctrl+H把代码里r=response.text[3:-1]
全部替换为r=response.text[4:-1]
。
-----------------------分割线(以下是乞讨内容)-----------------------