python爬虫
文章平均质量分 62
无恶不作杰尼龟
python
展开
-
国家税务总局全国增值税发票查验平台python实现
国家税务总局全国增值税发票查验平台python实现原创 2023-09-04 17:54:06 · 3901 阅读 · 3 评论 -
Python Requests专用请求头处理
import json# 使用三引号将浏览器复制出来的requests headers参数赋值给一个变量headers = """currentPage: 2pageSize: 20key:minPrice:maxPrice:hasStock: falsesort: 3batchId:searchType: 1actId:venderId:filtTypeJson: [{"type":5,"values":[{"id":23366}]}]hasRelation: falseh原创 2022-03-16 14:20:50 · 1505 阅读 · 0 评论 -
Python 仅下载B站视频的音频
Python 仅下载B站视频的音频因为各音源网站都要会员而且资源都不全,但是B站上所有的歌或者郭德纲的相声是都可以分享的,所以想在B站上下载想要的歌或者其他的音频。首先打开一个连接https://www.bilibili.com/video/BV1qt411g7pN?from=search&seid=5481535319705708598打开浏览器按F12 ,切换到NetWork。会看到有资源不停的加载像图片上这样数字开头的里面带有m4s?的就是视频的真实url左键点开可以看到下图直接原创 2021-08-29 01:49:51 · 3251 阅读 · 4 评论 -
AmazonCaptcha过亚马逊验证码,准确率95%以上
最近采集了一些亚马逊的商品数据, 线程比较多,每个配置账号太麻烦了,就加代理采集。开始还都很好一段时间之后就不停出现验证码,开始是用的百度ocr免费的,精确度还行,但是速度很慢, 多个线程同时进入验证码还处理不了,而且有次数限制。后来在github上看到了AmazonCaptcha这个第三方库,过亚马逊验证码是真的好用,使用也非常简单。#pip 安装pip install amazoncaptcha获取到验证码图片连接可以下载本地,然后直接传入保存的路径:from amazoncaptcha i原创 2021-06-16 14:51:41 · 3908 阅读 · 10 评论 -
手把手教你安装Xposed框架+JustTrustMe抓取手机APP数据
prthon抓取手机APP数据之前看了网上各种教程,但是手机连上Fiddler之后就是各种app连不上网,最近再B站上看到一个视频终于搞明白了。是因为SSL pinning这种防止中间人攻击的技术,什么是SSL pinning百度一搜一大堆请自行搜索,这里就不多说了。知道原因后就好办了。突破SSL pinning的方法最简单的就是使用Xposed+JustTrustMe但是这里注意给手机安装Xposed很可能便砖头,一定要用安卓模拟器我也试过好多模拟器都不怎么样,最后还是用的逍遥模拟器,安装之后默认原创 2020-12-12 15:41:18 · 21432 阅读 · 2 评论 -
python 分布式爬虫实现流程和相关设置
分布式爬虫概念:搭建一个分布式的机群,让其对一组资源进行分布联合爬取。作用:大大提升爬取数据的效率如何实现分布式?安装一个scrapy-redis的组件(原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫)scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个爬虫文件修改当前的爬虫文件:- 导包:from scrapy_redis.spiders impor原创 2020-12-08 12:45:02 · 215 阅读 · 0 评论 -
python爬虫 打击无良网站弹窗广告
今天又是在网站寻找漂亮小姐姐的一天,发现一个网站还不错,就是有广告在窗口正中间本来也没多大事,点一下就关闭了。但是在我手痒准备掏出我的F12大法的时候这个网站竟然把F12禁用了,这就勾起了我小小的战斗欲望。我先写了个简单的 requests.get()请求,发现并没有什么反爬的策略,直接就拿到页面源码页面结构也很简单一目了然,所有数据标签列表是<div class="item col-xs-6 col-sm-4 col-md-3 col-lg-3">,这个列表又在<div id=原创 2020-12-05 18:10:59 · 15326 阅读 · 2 评论 -
python scrapy结合selenium爬取JD数据
python scrapy结合selenium爬取JD数据JD的数据是js动态加载的需要selenium模拟鼠标动作向后滑动才加载完成,但是单纯的用selenium又很慢,所以用selenium和scrapy框架结合一下,会快一些。第一步:创建scrapy文件scrapy startproject JDpacd JDpascrapy genspider JD打开 JD.py分析jd页面数据这里我查找的是jd关于python爬虫的相关信息可以看到所有的信息都在ul标签下的li标签列表原创 2020-12-04 20:58:49 · 736 阅读 · 0 评论 -
python爬虫 下载视频网站视频
python爬虫 下载视频网站视频xpath解析页面源码requests.Session() 解决 status_code 302 网页重定向selenium 获取网页遇到 iframe 标签解决办法最近发现一个比较好的视频网站,里面的资源清晰度很高,就想把自己喜欢的美剧下载到本地保存起来慢慢看。第一步:分析视频链接点击视频,进入播放页面打开谷歌浏览器f12 点击切换到Network点击视频播放按钮,会看到一直有一条条状态刷新出来这个网站比较简单,切换到media,就可原创 2020-12-02 19:53:13 · 732 阅读 · 2 评论 -
python爬虫 之 scrapy框架采集2000期彩票数据
python爬虫 之 scrapy框架采集2000期彩票数据最近学习一下数据分析,需要大量的数据,不知道搞啥好就用scrapy框架爬2000期的彩票双色球,看看哪个号码出现的机率大一些。第一步:在终端切换到想要新建爬虫文件的目录下利用 cd XXXX 进行切换 输入scrapy startproject 文件名 ,并利用cd 文件名 切换到新建目录!我这里新建了一个项目叫gansha 这里成功了就可以看到提示输入cd gansha 进入到项目中输入scrapy genspider原创 2020-12-02 02:03:00 · 1015 阅读 · 1 评论 -
python抓取淘宝数据
python抓取淘宝数据selenium 模拟登录输入关键字并搜索xpath解析这个是属于比较简单的 直接上代码完整代码如下from selenium import webdriverfrom selenium.webdriver import ChromeOptionsimport timefrom lxml import etree#实例化浏览器对象option = ChromeOptions()option.add_experimental_option('exclu原创 2020-12-01 21:32:40 · 570 阅读 · 0 评论 -
python爬虫之 asyncio异步协程学习
python爬虫之 asyncio异步协程学习导包import asyncioimport aiohttp第一步:创建一个特殊的函数async def get_request(url):被 async 修饰的函数就是一个特殊函数,有一下特性:该函数被调用,不会立即执行函数被调用后返回一个协程对象第二步:协程对象调用特殊函数就会返回一个协程对象c = get_request(url) # 这里变量c 就是一个协程对象第三步:任务对象(高级的协程对象)利用协程对象( c )原创 2020-12-01 20:33:13 · 326 阅读 · 0 评论 -
python selenium学习之新浪微博
python selenium学习之新浪微博运用知识点:模拟登录模拟鼠标事件获取页面节点,解析开始模拟登录:第一步:实例化selenium对象from selenium import webdriverfrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation']) #原创 2020-12-01 17:03:18 · 298 阅读 · 0 评论