Python爬虫
Yakuho
网络爬虫、深度学习、古灵精怪的需求 :)
展开
-
【Python爬虫】某团酒店X-FOR-WITH分析
参数分析定位分析寻找最后此案例中,仅是通过该例子作为学习,如有侵权可联系作者进行删文。定位目标:查看ajax请求,寻找返回回来的数据。分析发现目标请求,并发现疑似参数加密的有两个,uuid和X-FOR-WITH, uuid经过多次调试发现,其前缀是基本不会变的 “|” 的后面跟着的是一个时间戳,所以基本可以断定uuid = secret + ‘|’ + round(timestamp() * 1000) 构成。而对于X-FOR-WITH,则定位不到此参数是从何生成的,这是因为此参数是由一个函原创 2020-10-27 12:19:27 · 687 阅读 · 3 评论 -
【Python爬虫】某团美食_token分析
步骤前言分析此案例中,仅是通过该例子作为学习,如有侵权可联系作者进行删文。前言打开北京地区的美食, 如下图打开开发者调试,分析ajax接口,查看入口。通过仔细对照数据发现,该ajax请求便是数据来源。分析想要拿到数据,发现post表单内有一个参数需要解决, 便是_token参数通过全局搜索直接搜索试试,疑似发现_token来自d,而d来自一个reload函数.让我们调试一番,到底是不是从reload函数拿到的发现的确加密后的参数是来则reload,并且加密的东西是url的链接原创 2020-09-14 17:47:15 · 387 阅读 · 0 评论 -
【Python爬虫】某芯城的JS逆向与爬虫接口分析
目录前言定位JS代码(混淆)KNN(字体反扒)此案例中,通过某汉芯城的例子作为学习,如有侵权可联系作者进行删文。前言打开某芯城官网,并进入到搜索页。通过随便搜索一个型号,获取列表页的信息打开开发者调试,观察列表页是如何加载的。通过观察发现,列表页是通过ajax进行动态加载的,并找到了请求的源头。而且并发现参数好像被加密。定位JS代码(混淆)通过全局搜索’v’看是否有线索。果然貌似发现了一个疑似地方。而且参数s好像也在里面,只不过代码好像被混淆了。没关系,通过一步一步调试,找到翻译混原创 2020-08-14 22:19:05 · 858 阅读 · 3 评论 -
【Python爬虫】借助某猪的案例写关于辅助xpath解析的小装饰器
此案例用简单selenium完成且重点在于解析数据到达目标页面配置相关Selenium获得页面page_source通过Xpath解析文本辅助Xpath的小装饰器最终效果到达目标页面通过百度搜索某猪的民宿,我们到达了目标的列表页,并记录下目标的URL配置相关Selenium获得页面page_source例如配置长这样通过Xpath解析文本例如解析这些数据或许已经注意到了,类装饰器有itemStrip这玩意吗???答案是这玩意是我编出来的。那么它的作用是什么?辅助Xpath的小装饰器装原创 2020-08-02 22:47:58 · 124 阅读 · 0 评论 -
【RSA2】学习案例:新浪微博评论以及登陆
新浪微博评论登陆我们一起来研究一下javasrcipt逆向学习案例:新浪微博评论点开评论并打开开发者工具,让我们一起分析一下。通过向下滑动,可以发现评论信息是通过ajax加载的,看下返回的什么数据。通过返回的html键,可以看到评论就在里面(提取内容的话只需要用xpath就能拿到了)转眼看下我们需要什么参数才能拿到数据。上图可以看到,评论是通过get请求拿到的数据,且url部分是...原创 2020-03-18 18:31:31 · 223 阅读 · 0 评论 -
【Python爬虫】Scrapy Middlewares一些配置(异常,代理,重试)
一.ProxyMiddleware(obeject):class ProxyMiddleware(object): logger = logging.getLogger(__name__) # request前,先添加代理 def process_request(self, request, spider): self.logger.debug('Us...原创 2019-08-14 22:38:40 · 1121 阅读 · 0 评论 -
【Python爬虫】scrapy框架(一)
一、scrapy框架流程图二、scrapy常用命令·startproject语法: scrapy startproject <project_name>这个命令是scrapy最为常用的命令之一,它将会在当前目录下创建一个名为 <project_name>的项目。·genspider语法: scrapy genspider [-t template] <...原创 2019-08-13 22:12:23 · 117 阅读 · 0 评论 -
【Python爬虫】selenium一些常用设置(Chrome、Firefox)
Chromefrom selenium import webdriverimport os# 进入浏览器设置options = webdriver.ChromeOptions()# 谷歌无头模式options.add_argument('--headless')options.add_argument('--disable-gpu')# 设置页面大小options.add_ar...原创 2019-07-31 00:12:14 · 1871 阅读 · 0 评论 -
【Python爬虫】selenium封装点击网页上指定坐标
from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChains browser = webdriver.Chrome()browser.get('http://www.baidu.com')ActionChains(dr).move_by_offset(200, ...原创 2019-07-30 12:23:57 · 946 阅读 · 0 评论