爬虫
cf313995
这个作者很懒,什么都没留下…
展开
-
使用scrapy模拟登录知乎
1、裁判文书网地址http://wenshu.court.gov.cn/2、网站分析(1)网站类型是动态网站。(2)网页源代码中并没有我们想要的页面内容,且引用许多js代码。(3)查看列表页是否有专门的json接口。(4)通过开发者工具查看network,发现了一个json接口。即ListContent。(5)通过研究json接口,发现它是一个post请求。(6)发现是post...原创 2019-03-18 21:55:16 · 1332 阅读 · 5 评论 -
爬取裁判文书网(一)
1、裁判文书网地址http://wenshu.court.gov.cn/2、网站分析(1)网站类型是动态网站。(2)网页源代码中并没有我们想要的页面内容,且引用许多js代码。(3)查看列表页是否有专门的json接口。(4)通过开发者工具查看network,发现了一个json接口。即ListContent。(5)通过研究json接口,发现它是一个post请求。(6)发现是post...原创 2019-03-18 21:54:04 · 7438 阅读 · 16 评论 -
爬虫字体替换(一)天眼查
1、网址https://www.tianyancha.com2、打开天眼查,搜索京东的页面,看到一堆关键词为京东的公司信息。现在我们需要获取每个公司的核准日期信息,点进去查看,发现其信息做了字体的反爬措施。3、继续查看其它公司的信息,发现他们都是经过加密替换的。且每个的class属性都是 tyc-num。通过查看网页源代码,找寻引用tyc-num这个class的css样式。发现源代码中...原创 2019-03-18 21:56:00 · 1777 阅读 · 2 评论 -
爬虫字体替换(二)起点
1、在抓取起点中文网的小说信息时,发现网站把一些数字都转换成 其他的东西,如《圣墟》。查看网页源代码,发现如点击、推荐、总字数等的信息全是类似这样的,是一组十进制数据:2、思路方式一:1、需要获取字体文件所在的url,通过抓包获取所有字体文件,然后和网页源代码中展示的字体(@font-face: src:url(xxx.woff))进行对比,确认当前页面是同的是哪一个字体文件。2...原创 2019-03-18 21:56:11 · 833 阅读 · 4 评论