![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 69
流夏_
去追随那些使你安宁的东西
展开
-
JS逆向——裁判文书网(详细图文步骤)
登录状态验证 写在前面:本篇博客很长,都是手把手一步一步的教程,跟着做就能出结果,文章总共分为以下三部分,我也会在3个部分中详细的说明步骤(1)接口请求头参数验证(2)接口响应数据DES3加密(3)登录状态验证一、接口请求头参数验证1、以“民事案件”专栏为例,切换到“民事案件”专栏,点击翻页,观察控制台中的网络请求,rest.q4w结尾的接口及为数据接口。2、点击打开请求详情,观察请求和响应3、请求中数据校验主要是。原创 2023-01-30 10:55:45 · 3733 阅读 · 28 评论 -
JS逆向——工信部ICP、IP、域名信息备案管理平台
从此处js可知token参数是请求 “auth”结尾的 接口的返回数据——》通过观察此时的作用域,可看到接口的返回值,根据js代码可知bussiness即为校验参数token的值。1、页面中请求接口,观察请求头可发现,校验参数token为加密的字符串,根据该字符串并不能直观得到所用的加密方式是什么。7、全局搜索 关键字,即可定位到该参数生成的地方,可知为MD5加密——》在此处打断点观察参数 g、A、I。追踪信息如下,先跟进G.getToken()——》指向位置为蓝框部分——》继续跟进B.auth()原创 2022-12-30 16:40:03 · 1379 阅读 · 0 评论 -
JS逆向——建筑市场监管公共服务平台
问题(1)接口返回值加密1、接口返回的数据为加密后的文本,先根据密文长度无法直接判断具体的加密方式。原创 2022-07-28 15:31:02 · 673 阅读 · 5 评论 -
xpath如何选择不包含特定子节点的节点?
xpath如何选择不包含特定子节点的节点?今天在抓取一个新闻页时,遇到了一个小麻烦,正文部分结构大致如下:<div class="content"> <p>hello word</p> <p>A <em>ffsdf</em>jkfjg</p> <p>kgor <a href="">jfijr</a></p> <p><i原创 2020-05-28 16:21:57 · 4934 阅读 · 2 评论 -
Python爬虫笔记————抓取 猫眼电影排行榜Top100
注:初学爬虫,本节仅使用requests库和使用正则作为解析工具 最近学习爬虫,找个比较简单的网页练习了一下,作为初入爬虫的小白,不足之处还请大家多多指教。一、分析url首先,打开目标站点https://maoyan.com/board/4,打开之后便看到榜单信息: 排名第一的电影是霸王别姬,页面中可以看到的信息有电影名称,主演,上映时间,电影封面,评分,排名等。页面最...原创 2018-10-08 20:11:08 · 5837 阅读 · 3 评论 -
关于scrapy框架中遇到需要登录时的解决办法
最近在工作中频繁遇到需要登录后才能抓取的数据,但也不是没有解决办法,以往解决办法如下:A. 现在浏览器里登录,然后把登录后的cookie粘贴到代码中去请求,这样就相当与利用cookie"伪造"了一个分身,从而跳过登录验证。这样往往可以解决大部分需求,但是遇到需要crontab定时爬取就显得鸡肋。cookies是有生存时间的,一旦cookies死掉那么服务器上正在跑的代码也会崩溃掉,如果还...原创 2019-01-24 18:16:32 · 2078 阅读 · 3 评论 -
scrapy-redis 更改队列和分布式爬虫
为初学者方便对分布式爬虫的学习,总结了一下自己的理解和网上的知识点初学者的几个疑问点:1.什么是分布式爬虫?请参考:https://blog.csdn.net/zhusongziye/article/details/804574872.分布式爬虫需要掌握哪些技能?scrapy-redis原理3.scrapy-redis是干吗用的?记分布式爬虫关键点:(1)scrap...转载 2019-02-24 15:40:05 · 1741 阅读 · 0 评论 -
关于Flask框架中启动Scrapy爬虫框架时的几种问题的解决
Flask结合Scrapy的使用时遇到的几个问题一、Scrapy 1.7.1 - no active project Unknown command: crawl Use "scrapy" to see二、ValueError: signal only works in main thread三、subprocess.CalledProcessError: Command...returne non-zero exit status 2.四、接口阻塞等待爬虫运行原创 2019-07-24 15:54:02 · 4338 阅读 · 4 评论