因为我也是跟着学习的,算是笔记吧~
之前只爬了搜索页面,并没有爬搜索数据,事实上爬虫一定是要爬数据的!
然而爬虫肯定是要有身份伪装的呀,不然怎么可能会让你随便进入秘密花园呢~
1、获取身份信息 进行伪装!
F12→勾选preserve log
勾选上这个是为了下面显示更多信息,至于原理是啥,我也不知道……
然后ctrl+R显示信息(刷一下蹦出来很多页面信息
然后就随便点一条就能蹦出来右边的啦~
在headers里就可以看到获取的头信息,把他复制下来
就可以进行爬虫啦~
2、开爬!
还是一样的顺序(引入模块、指定url、发起请求、获取相应数据、持久化存储)
以现在的技能 还只能爬取单个页面 慢慢来嘛~
学习参考:https://blog.csdn.net/BcXbHello/article/details/110236308