![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
实战
小林的秃头史
这个作者很懒,什么都没留下…
展开
-
实战:爬取掘金热门文章——基于python爬虫
说一说爬取中的踩得坑,印象太深刻了 缺失一些必要的请求头时,掘金网站不会报错,而是给你返回不相关的一推数据,关键这些数据从形式上看还很像请求拿回来的数据。就这个坑害我思索了很长时间,可能还是我太菜了吧~ 掘金网热门文章刷新频繁,往往几分钟前在调试页面看到的数据,跟刚请求到的数据略有不同,这又让我纠结了一些时间 最后放上源码: import requests, json,time url = "https://api.juejin.cn/recommend_api/v1/article/recommend原创 2021-03-16 22:58:44 · 883 阅读 · 2 评论 -
爬虫设计翻页链接实战——基于链家网站
爬虫对象为链家网 url = 'https://bj.lianjia.com/ershoufang/' 在爬取该网页前,要弄明白哪些数据是js加载的,一个很简单的方法是禁止当前页面js加载,观察禁止前后网页的变化。 发现在禁止js加载后,该网页的翻页模块消失了,说明链家的翻页功能是通过js渲染的 下面是实现翻页功能的标签 思索一番后,决定采用xpath方法获取该标签的page-data属性,以获得总页数(totalPage)和当前页数(curPage),而后采取链接格式化的方式,循环遍历所有页面。具体实原创 2021-03-15 23:38:26 · 379 阅读 · 0 评论