爬虫
文章平均质量分 54
NealHuiwen
爱好唱、跳、rap、篮球
展开
-
抖音各加密参数说明和获取(含代码)
抖音各加密参数说明和获取(含代码),结合各大佬文章原创 2023-12-11 18:45:11 · 4207 阅读 · 1 评论 -
爬取WebSocket数据
爬取实时变化的WebSocket数据转载 2023-04-20 19:10:03 · 393 阅读 · 0 评论 -
建筑数据破解JS逆向爬虫
抓取建筑市场数据原创 2023-04-20 18:02:51 · 830 阅读 · 0 评论 -
fiddler抓包返回304
fiddler抓包返回304转载 2022-08-09 13:59:35 · 1470 阅读 · 0 评论 -
XposedHook框架安装
转发:https://blog.csdn.net/lemisky/article/details/100103941转载 2021-02-24 17:57:02 · 164 阅读 · 1 评论 -
Python MySQL数据库连接池组件封装
以前一直在用Java来开发,数据库连接池等都是有组件封装好的,直接使用即可,最近在尝试Python的学习,碰到了和数据库打交道的问题,和数据库打交道我们都知道,数据库连接池必不可少,不然要么就是程序异常不稳定,要么就是数据库莫名其妙挂了,本篇博客主要是对数据库操作的简单封装,相当于一个DBHelper操作类组件Python中的数据库连接操作所需组件pymysql:mysql的Python连接包DBUtils:连接池组件configparser:配置文件模块mysql-connector-转载 2020-12-15 18:29:49 · 583 阅读 · 0 评论 -
Python数据抓取——多线程,异步
本文主要是为了加快数据抓取任务,考虑使用多进程、多线程、异步原理,相关概念可以参考https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先,考虑单核CPU是如何执行多任务的:操作系统轮流让各个任务交替执行,任务1执行0.01秒,切换到任务2,任务2执行0.01.转载 2020-08-12 17:35:03 · 260 阅读 · 0 评论 -
用GREQUESTS实现并发HTTP请求
起因要用http请求探测服务的有效性,多进程,多线程,感觉似乎没有必要,看看有没有协程的方案1. 简单用法grequests 利用 requests和gevent库,做了一个简单封装,使用起来非常方便import grequestsimport timeimport requestsurls = [ 'https://docs.python.org/2.7/library/index.html', 'https://docs.python.org/2.7/librar转载 2020-08-12 17:32:08 · 573 阅读 · 1 评论 -
Python爬虫的N种姿势,异步,并发,scrapy效率比较
问题的由来 前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0): 我们的需求为爬取红色框框内的名人(有500条记录,图片只展示了一部分)的 名字以及其介绍,关于其介绍,点击该名人的名字即可,如下图:这就意味着我们需要爬取5转载 2020-08-12 17:29:32 · 2277 阅读 · 4 评论 -
JS逆向——破解百度翻译参数(sign)爬虫 超级详细
一、分析请求参数打开地址:https://fanyi.baidu.com/打开Chrome调试工具,然后随意输入一段文字,查看抓包结果。post请求 Form data 参数 如上图所示,Form Date中只有两项是会变化的:query:我们要翻译的内容 sign:本文的BOSS出现了,一串意义不明的浮点数值。token是不变的,先给查找出来,全局搜索 全局搜索发现 token 的值 token:13508e550366f3004701d561721e12bd转载 2020-07-08 14:51:05 · 5509 阅读 · 2 评论 -
关于银行等带有安全控件插件的输入selenium无法sendkeys的解决方案
前言最近在做与银行等第三方交互的UI测试发现,selenium对带有安全控件的输入框senkeys不起作用,此时需要换思路解决。放弃selenium的输入。以下是自己整理的解决方案,供大家参考,如有不对,请指正。解决方案采用第三方虚拟键盘DD XOFT(完美解决),这种方案持续集成不方便,或者暂未找到解决方案(待研究);采用autoi调用银行插件,最后转成可执行.exe文件,在代码中直接调用,前提是每次都需要安装安全控件,目前,我所在项目只需要安装一次;场景描述再利用seleniu原创 2020-05-31 16:30:38 · 2829 阅读 · 0 评论 -
Python 执行 JS 代码 —— PyExecJS、PyV8、Js2Py
一、Python执行JS代码--PyExecJS、PyV8、Js2Py1.1、PyExecJS PyExecJS的优点是您不需要照顾JavaScript环境。特别是,它可以在Windows环境中运行,而无需安装额外的库。PyExecJS的缺点之一是性能。PyExecJS通过文本传达JavaScript运行时,并且运行缓慢。另一个缺点是它不完全支持运行时特定的功能。对于某些用例,PyV8可...原创 2020-04-18 23:17:50 · 957 阅读 · 0 评论 -
python实现并发爬虫
阅读目录一.顺序抓取 二.多线程抓取 三.gevent并发抓取 四.基于tornado的coroutine并发抓取在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种:进程,线程,协程。进程不在的讨论范围之内,一般来说,进程是用来开启多个spider,比如我们开启了4进程...原创 2020-03-02 13:31:53 · 796 阅读 · 0 评论