昨天在看头条的时候发现,结婚登记人数已连续7年下降,去年创17年来新低
我都惊呆了
细看发现2020年,官方统计的结婚登记人数共计814.33万对,较2019年减少了113万对。
这也是自2013年达到1346.93万对后,连续7年下降。2020年814.33万对的结婚登记人数,也创下了自2003年(国家统计局官网数据:811.4万对)以来,近17年中的新低。
我们观察评论发现,大家对结婚率低这种现象都有自己的看法
我们今天就用爬虫来获取这些评论数据,看看除了看到的这些原因还有哪些是不为我们所知的
需求分析
我们要获取的数据有当前文章下的评论者的
用户名称、
评论内容、
帖子回复数、
评论点赞数、
和评论时间等
网页分析
首先我们F12打开浏览器开发者模式如下:
找到如上图评论所在位置以及网页请求的真实url
观察url特点,count=20代表每页十条评论数据,offset=0、20、40控制翻页,其余参数不发生变化
https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=toutiao_web&offset=0&count=20&group_id=7032951744313164295&item_id=7032951744313164295
https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=toutiao_web&offset=20&count=20&group_id=7032951744313164295&item_id=7032951744313164295
https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=toutiao_web&offset=40&count=20&group_id=7032951744313164295&item_id=7032951744313164295
https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=toutiao_web&offset=60&count=20&group_id=7032951744313164295&item_id=7032951744313164295
据此我们可以构造出多页请求的请求连接
url =f'https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=toutiao_web&offset={(page-1)*20}&count=20&group_id=7032951744313164295&item_id=7032951744313164295'
发送请求
我们使用刚才找到的url先来获取单页请求信息
url =f'https://www.toutiao.com/article/v2/tab_comments/?aid=24&app_name=t