自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 某宝评论数据采集

本文介绍了如何爬取淘宝商品评论数据。首先通过浏览器开发者工具分析目标网站,确定评论数据接口为https://h5api.m.tmall.com/h5/mtop.taobao.rate.detaillist.get/6.0/。然后使用Python代码模拟浏览器请求,设置请求头和参数,获取并解析JSON格式的评论数据。最后将数据保存为CSV文件,包含昵称、评论内容和日期三个字段。文中还展示了如何通过修改参数实现批量抓取多页评论数据的方法。整个流程涵盖了目标分析、请求模拟、数据提取和存储等关键环节。

2026-01-21 14:22:39 628

原创 xhs_手机壁纸图片采集

本文介绍了一个使用Python自动化下载小红书图片的爬虫程序。程序通过DrissionPage库控制浏览器获取小红书搜索结果页面的数据包,解析获取笔记ID和xsec_token,再利用requests库请求笔记详情页,通过正则表达式提取图片链接并下载保存到本地img文件夹。程序实现了从搜索关键词到批量下载图片的全流程自动化,包含标题提取、图片URL获取、图片下载保存等功能模块。代码展示了如何结合浏览器自动化与请求库实现数据抓取,适合需要批量获取小红书图片的场景。

2026-01-18 19:41:14 60

原创 超级鹰的使用

本文介绍了两种自动化登录网页的方法:1)使用超级鹰验证码识别服务自动填写验证码登录,通过Selenium获取验证码图片并调用超级鹰API识别,实现自动化登录流程;2)使用Cookie免密码登录,通过保存的Cookie信息直接访问网页。文章包含完整的Python代码实现,包括超级鹰客户端封装类、验证码识别调用示例以及Cookie操作流程。这些方法适用于需要自动化处理验证码或保持登录状态的网页操作场景,代码可直接用于实际项目开发。

2026-01-06 23:09:42 132

原创 scrapy的暂停与重启

爬虫现已运行,能按键盘上的Ctrl+C停止爬虫,停止后再看看记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是url记录文件,有该文件就表示还有没有完成的url,在全部url完成后会自动删除该文件。第一点:不同的spider是不能共用同一个spider的,所以要在job_info 下新建一个文件夹,名为001。新建一个目录,目录名为job_info:因为要暂停爬虫,所以需要保存许多中间状态,这个目录就是为了保存状态。打开命令行cmder。

2026-01-06 22:12:50 203

原创 scrapy实现IP代理池

摘要:本文介绍了IP代理的基本概念及其在爬虫中的应用。主要内容包括:代理服务器的作用(转发请求、更换IP)、代理匿名度分类(透明/匿名/高匿)、代理类型(HTTP/HTTPS)。获取代理的方式有免费(如西祠代理)和付费(如智连代理),并详细说明了智连代理的购买和使用流程。文章还提供了从代理网站爬取IP的Python代码示例,以及如何将IP存入MySQL数据库并进行有效性验证的方法。最后介绍了如何在Scrapy框架中使用随机代理IP的中间件实现。

2026-01-06 16:51:18 339

原创 selenium嵌入scrapy动态网页抓取

Selenium是一个用于Web测试和自动化的工具,可通过WebDriver驱动浏览器实现自动化操作。本文介绍了Selenium的基本使用,包括安装、动态网页数据提取、模拟登录、页面滚动、禁用图片加载等功能。重点讲解了如何将Selenium集成到Scrapy框架中,通过中间件处理动态网页请求。示例代码展示了获取动态网页源码、使用Selector解析数据、模拟知乎登录、执行JavaScript滚动页面等常见应用场景,为网络爬虫和自动化测试提供了实用解决方案。

2026-01-05 23:38:48 474

原创 使用Scrapy框架开发电影网站多站点爬虫项目

本文介绍了一个多站点电影信息爬虫实战项目,主要针对豆瓣电影和比特大熊两个网站进行数据采集。项目要求实现两个爬虫,分别获取目标电影的基本信息(名称、导演、演员、评分等),并以最少请求和最少依赖的方式存储到本地文件或数据库。文章详细说明了爬虫配置优先级、数据格式定义、管道设计(开发阶段用本地文件,部署阶段用数据库)以及针对两个目标网站的具体爬取策略和代码实现。通过XPath解析网页内容,提取关键字段并存储为字典格式,项目实现了对两个电影网站信息的自动化采集功能。

2025-12-25 18:30:17 1602

原创 深入学习scrapy框架的内置中间件

本文介绍了Scrapy框架中的中间件系统,包括爬虫中间件和下载器中间件的功能与分类。爬虫中间件负责处理爬虫行为规范,如请求验证;下载器中间件则对请求和响应进行预处理。文章详细列举了各类内置中间件,如HttpErrorMiddleware处理状态码、UserAgentMiddleware管理UA、CookiesMiddleware处理cookie等,并通过两个实战案例演示了UA设置和cookie管理的具体实现方法。文中还解释了中间件的核心处理函数及其返回值,为开发者提供了Scrapy中间件的全面使用指南。

2025-12-24 21:49:43 640

原创 深入学习scrapy管道和文件下载

Scrapy的pipeline管道是框架核心组件,用于数据处理和文件下载。内置的FilesPipeline和ImagesPipeline分别处理文件和图片下载,支持自动命名、格式转换等功能。通过FILES_STORE/IMAGES_STORE设置存储路径,file_urls/image_urls字段指定下载链接。实战案例演示了创建文件下载项目的过程,包括项目初始化、爬虫生成和启动文件配置。pipeline的管道化设计提供了灵活可扩展的数据处理方案,便于实现数据清洗、验证和存储等操作。

2025-12-23 15:31:23 379

原创 爬取某省2019年的疫情数据

本文介绍了使用Scrapy框架爬取某省2019年疫情数据的完整流程。首先通过命令行创建名为"ncovdata"的Scrapy项目,并生成基础爬虫文件"ncov"。接着展示了如何启动爬虫和创建调试脚本run.py。文章重点解析了Scrapy运行时的日志结构,包括顶部版本信息、中间请求处理过程以及底部统计信息,详细说明了日志中各组成部分的含义,如版本信息、请求记录、状态统计等,为开发者理解Scrapy运行机制提供了参考。

2025-12-22 19:17:08 405

原创 关于cookie池的系统设计和实现

Cookie池是一种用于管理多个网站登录状态的系统,通过将cookie集中存储并动态分配给爬虫程序,解决单账号访问限制和登录复杂性问题。其核心设计包括: 系统架构:采用Redis存储cookie,包含模拟登录服务和cookie检测服务两个主要模块 关键技术实现: 使用抽象基类强制各网站实现登录和检测接口 通过Redis的set数据结构存储cookie,确保随机获取和不重复 状态检测机制:发送请求验证cookie有效性 优势特点: 服务解耦,支持多语言开发 组件可替换,如存储介质可更换 分布式部署,提高稳定性

2025-12-21 16:36:18 664

原创 scrapy在LInux的部署

本文介绍了Linux操作系统的基础知识及应用部署。主要内容包括:1) Linux系统安装与版本选择;2) 远程连接SSH服务配置;3) 文件目录结构与常用命令;4) 文件权限管理方法;5) Python环境和Scrapy爬虫框架的部署;6) MySQL和Redis数据库安装配置;7) Scrapyd服务的搭建与管理。文章提供了详细的操作步骤和命令示例,涵盖Linux系统管理、开发环境搭建及网络服务配置等实用技能,适合Linux初学者和开发者参考。

2025-12-18 16:01:35 475

原创 调度浏览器降低分析难度

本文介绍了三种主流Web自动化测试工具(Selenium、PhantomJS、Puppeteer)的对比和使用方法。Selenium支持多种语言,兼容性好但速度较慢;Puppeteer基于Node.js,性能优越;PhantomJS已停止维护。重点讲解了Chrome的远程调试能力和数据隔离技术,通过修改启动参数实现多账号登录隔离。文章还提供了具体代码示例,包括Selenium的环境配置、元素操作以及Puppeteer的基本使用方法。这些工具和技术可以帮助开发者更好地处理反爬机制,实现自动化测试和爬虫开发。

2025-12-16 20:12:26 341

原创 cookie池的搭建与维护-2

本文介绍了一个Cookie池项目的设计与实现。该项目是一个Web应用,用于统一管理账号密码和维护Cookie,提供两种获取Cookie的方式:定时全自动登录和协助式绕过验证码登录。项目采用Django框架开发,包含核心模型(WebModel、AccountModel、ActiveRecordModel)和任务模块,支持Python和JavaScript脚本处理Cookie。数据库使用SQLite,通过Celery实现定时任务调度。项目提供API接口供外部调用,具有高可扩展性,可方便地添加新网站和应用。整体架

2025-12-15 13:34:55 291

原创 逆向破解加密过程-1

本文介绍了两种Python实现RSA加密的方法:1) 通过Python直接重构加密函数,使用Cryptodome库处理RSA公钥加密;2) 通过Python调度JS文件实现加密,利用execjs库执行JS加密代码。两种方法都需要提取网页公钥,其中第一种方法更直接,第二种方法更接近浏览器实际加密过程。实践部分提供了完整的代码示例,包括公钥提取、密码加密和表单提交过程,并强调调试时需要注意请求头信息和网站可能的Bug。两种方法都能实现相同的加密效果,可根据具体场景选择使用。

2025-12-11 10:07:59 289

原创 cookie池的搭建和维护

摘要:本文介绍了Cookie的使用场景及其在网络爬虫中的重要性。当前反爬虫机制包括非登录状态信息受限、登录状态请求速度限制等,而Cookie池通过批量维护账号活性可解决这些问题。文章详细解析了Cookie的属性(如name/value、expires等)和Session的区别,Session是服务端存储,Cookie是客户端存储。通过Python代码示例展示了Cookie的持久化存储与复用方法,包括使用requests.Session()管理Cookie。最后强调Cookie池技术能合法获取网站公开数据,适

2025-12-10 10:30:33 342

原创 爬虫接单常见项目类型

针对有反爬机制(如验证码、IP封锁)的网站,例如社交媒体(微博、Twitter)或金融平台(股票数据)。利用或开发API接口,实现自动数据获取和更新,如抓取天气API生成日报表,或集成多个数据源(如新闻聚合)。这是最常见的类型,涉及抓取公开网站的结构化数据,如电商平台(淘宝、亚马逊)的商品价格、描述、评论等。爬虫接单项目根据难度和需求多样化,常见类型包括从简单的数据采集到复杂的反爬虫处理。这些项目类型覆盖了从初级到高级的需求,价格范围从2K2K到20K20K以上,取决于项目规模、技术难度和交付时间。

2025-12-09 13:21:31 296

原创 携程酒店数据采集

本文介绍了两种爬取携程酒店数据的方法:requests模块和drissionpage模块。首先通过开发者工具分析数据位置,然后详细说明了使用drissionpage模块的步骤:1)配置浏览器路径;2)监听数据包特征;3)访问网站并等待加载;4)获取响应数据。文章提供了完整的代码示例,演示了如何通过自动化工具直接获取酒店列表数据。这种方法相比requests模块更简单,适合初学者快速上手网页数据采集。

2025-12-09 11:53:14 597

原创 破解加密登录的过程

本文介绍了网络安全中的明文传输与密文传输原理,重点讲解了账号信息加密的通用算法(如RSA、AES等)。通过开发者工具Network抓包分析登录过程,演示了如何逆向分析JS加密代码:从查找登录请求记录、定位加密字段,到解密混淆的JS函数(如doLogin函数),最终还原出密码加密流程(获取原密码→加载公钥→RSA加密→提交密文)。整个过程展示了前端加密的典型实现方式和逆向分析方法。

2025-12-01 22:56:02 321

原创 scrapy 爬取知名博客

本文介绍了使用Scrapy框架爬取博客园新闻数据的完整流程,主要包括: 环境配置:创建虚拟环境并安装Scrapy及相关依赖库,初始化项目并生成爬虫模板。 开发调试:通过创建main.py文件实现Pycharm调试功能,介绍了路径处理的关键方法。 数据提取:详细讲解了XPath和CSS选择器的语法与使用方法,强调编写简洁路径的重要性。 模拟登录:使用undetected_chromedriver实现博客园模拟登录,获取cookies用于后续请求。 注意事项:指出了extract()和extract_first

2025-11-30 13:13:06 783

原创 xpath,css,selenium

• 答案:XPath(XML Path Language)是一种在XML和HTML文档中导航节点的语言,通过路径表达式定位元素(如标签、属性或文本)。在爬虫中,XPath用于精确提取数据(如标题、链接或内容),尤其适合处理嵌套结构。例如,在Scrapy等框架中,开发者使用XPath从响应中抓取特定数据块,替代手动解析HTML的复杂性。相较于CSS选择器,XPath支持更复杂的查询(如轴操作),但需注意性能优化。

2025-09-26 13:30:14 897

原创 scrapy随机切换user-agent

摘要:本文介绍了在爬虫中随机切换UserAgent的重要性及实现方法。UserAgent是HTTP协议中标识浏览器信息的字符串,网站通过它识别访问设备。文中提供了三种设置方式:1) 在Spider中随机选择预定义列表的UserAgent;2) 在settings中直接设置固定UserAgent;3) 通过下载中间件动态生成随机UserAgent,推荐使用fake-useragent库实现。最后还展示了如何根据配置指定特定浏览器类型的UserAgent,使爬虫请求头更加灵活多样,有效避免被网站识别和封禁。

2025-05-23 17:41:49 450

原创 了解IP概念和代理IP的使用

品牌划分:电信,联通,移动,广电线缆划分:电话线-Modem,网线-路由器,光纤-路由器上网方式划分:拨号上网,认证上网,静态IP上网请求头中的IP地址并发是HTTP的标准列如Nginx,通常可以在请求头中加X-Real-IP:IP地址基于IP地址:购买短效IP,列如日租10000个,月租500/天基于请求次数:购买代理请求次数,列如1万个基于请求流量:购买请求流量,按请求字节的大小计算将爬虫程序部署到ADSL服务器,封IP后直接重启网络服务。

2025-04-13 16:44:01 815

原创 反爬虫的学习

爬虫,也叫做自动化数据获取程序网站开发者针对爬虫类程序,而做的特殊功能模块,称为反爬侦测请求的字段信息,主动发现爬虫统计请求频率并且自动限制高频的异常请求对数据及数据传输方式进行干扰和加密提供验证识别和输入的网络服务通过AI服务或人工来提供自动化的验证码识别服务。

2025-04-11 13:45:02 1577

cookie池的搭建与维护

里面包含一张cookie池思路图和cookiemanage文件夹,包含cookie池框架,用于二次开发

2025-12-15

NotoSansSC.ttf

NotoSansSC.ttf

2025-04-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除