爬虫
文章平均质量分 78
爬虫学习笔记
GitHub质检员
目前专注于大学生项目实战开发,讲解,毕业答疑辅导以及产品测评、宣传、工具推广等合作。全网粉丝30万+,CSDN特邀博主,Java新星计划多届导师,掘金/知乎/华为云/阿里云/51CTO等平台优质创作者。
展开
-
爬虫 — 正则案例
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖- 拜托拜托这个真的很重要!目标网站:http://www.weather.com.cn/weather/101010700.shtml。获取每一组 li 标签,findall查找所有,返回的数据类型是 list。需求:获取日期,天气,温度,风力数据。:表示尽可能匹配多的字符-1、确定 url,静态加载。:表示尽可能匹配少的字符。相当于是想要的内容-原创 2023-10-17 09:09:09 · 618 阅读 · 0 评论 -
爬虫 — 字体反爬
合并成一个字典 = {‘-0px’:第1个数字,‘-21.4px’:第2个数字,‘-42.8px’:第3个数字,‘-64.2px’:第4个数字}x_lst = [‘-0px’,‘-21.4px’,‘-42.8px’,‘-64.2px’]——图片上数字的间距(不会发生变化)12、选择“API文档”,选择“通用场景文字识别”,选择“通用文字识别(标准版)”,选中“Python”;num_lst = [第1个数字,第2个数字,第3个数字,第4个数字]——图片上的数字(会发生变化)原创 2023-10-16 09:11:56 · 1851 阅读 · 0 评论 -
爬虫 — 自动化爬虫 Selenium
import time # 导入 time 模块,用于时间相关操作from PIL import Image # 导入 Image 模块,用于图像处理from selenium import webdriver # 导入 webdriver 模块,用于自动化测试和控制浏览器from selenium.webdriver import ActionChains # 导入 ActionChains 类,用于模拟用户操作。原创 2023-10-16 09:11:20 · 912 阅读 · 0 评论 -
爬虫 — 验证码反爬
import time # 导入 time 模块,用于时间相关操作from PIL import Image # 导入 Image 模块,用于图像处理from selenium import webdriver # 导入 webdriver 模块,用于自动化测试和控制浏览器from selenium.webdriver import ActionChains # 导入 ActionChains 类,用于模拟用户操作。原创 2023-10-16 09:10:47 · 1306 阅读 · 0 评论 -
爬虫 — 内容乱码与证书不信任网站
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖- 拜托拜托这个真的很重要!- 有问题可以评论或者私信呢秒回哦。是由信任的数字证书颁发机构验证身份之后颁发的证书,同时具有服务器身份验证和数据传输加密功能。一般由专门的机构颁发的,也有的网站不希望别人爬取,会自己制作证书的,但是这种情况下,一般用户访问时需要手动安装证书。如果出现乱码,设置编码,编码格式跟网页源码当中 charset 的编码是一样的。原创 2023-10-16 09:09:54 · 662 阅读 · 0 评论 -
爬虫 — 简介
是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。原创 2023-10-16 09:09:16 · 695 阅读 · 0 评论 -
爬虫 — 反爬
Cookie 实际上是一小段的文字信息(key - value 格式)。浏览器向服务器发起请求,如果服务器需要记录该状态,服务器就会向浏览器颁发一个 Cookie。浏览器会把 Cookie 保存起来。当浏览器再请求该服务器时,浏览器把请求的网址连同该 Cookie 一同提交给服务器。服务器检查该 Cookie,以此来辨认浏览器状态。原创 2023-10-16 09:08:39 · 1239 阅读 · 0 评论 -
爬虫 — 多线程
线程是进程内的执行单元,每个线程独立执行特定的任务,但共享同一进程的内存空间。某个线程要更改共享数据时,先将其锁定,此时,资源的状态为“锁定”,其它线程不能改变,直到该线程释放资源,将资源的状态变成“非锁定”,其它的线程才能再次锁定该资源。在一个函数中,对全局变量进行修改的时候,如果修改了指向,必须使用 global,仅仅是修改了指向空间中的数据时,不用必须使用 global。这些队列都实现了锁原语(可以理解为原子操作,即要么不做,要么都做完),能够在多线程中直接使用,使用队列可以实现线程间的同步。原创 2023-10-16 09:08:05 · 58 阅读 · 0 评论 -
爬虫 — Xpath 数据解析
XPath(XML Path Language)是一种 XML 的查询语言,它能在 XML 树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航。XML 是一种标记语法的文本格式,XPath 可以方便的定位 XML 中的元素和其中的属性值。lxml 是 Python 中的一个第三方模块,包含了将 HTML 文本转换成 XML 对象和对对象执行 XPath 的功能。原创 2023-10-16 09:07:28 · 103 阅读 · 0 评论 -
爬虫 — Scrapy-Redis
Scrapy-Redis 是 Scrapy 框架的一个扩展,用于实现分布式爬虫。它将 Scrapy 与 Redis 数据库集成,允许多个爬虫实例共享数据并协同工作,以提高爬取效率和可扩展性。Scrapy-Redis 使用 Redis 的集合来进行 URL 的去重处理。每个爬虫实例都会在将 URL 添加到队列之前检查它是否已经存在于集合中,以避免重复爬取。查看 GitHub 源代码1、导入类,修改继承类。2、修改配置文件。# 设置用户代理信息# 指定去重方式,给请求对象去重# 设置调度器。原创 2023-10-13 09:07:01 · 752 阅读 · 0 评论 -
爬虫 — Scrapy 框架安装问题
整理几个关于安装 Scrapy 框架时会遇到的问题及解决方法。1、2、3、原创 2023-10-13 09:06:25 · 768 阅读 · 0 评论 -
爬虫 — Scrapy 框架(二)
是基于全站数据的爬取,将所有的数据爬取下来。Scrapy 为下载 item 中包含的文件提供了一个可重用的 item pipelines,这些 pipeline 有些共同的方法和结构,常用的有 Files Pipline 和 Images Pipeline。代理服务器会隐藏客户端的真实 IP 地址,并使用自己的 IP 地址作为代理发送请求,但目标服务器仍然可以检测到使用了代理。代理服务器完全隐藏客户端的真实 IP 地址,并使用自己的 IP 地址作为代理发送请求,目标服务器无法检测到使用了代理。原创 2023-10-12 16:51:43 · 1501 阅读 · 0 评论 -
爬虫 — Scrapy 框架(一)
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。点击进入官网。原创 2023-10-12 16:52:18 · 797 阅读 · 0 评论 -
爬虫 — JsonPath 和 CSV 文件读写
JsonPath 提供的 JSON 解析非常强大,它提供了类似正则表达式的语法,基本上可以满足所有你想要获得的 JSON 内容。(Comma Separated Values),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。是一种简单的方法来提取给定 JSON 文档的部分内容,JsonPath 有许多编程语言,如 Javascript,Python,PHP 和 JAVA。查询的根节点对象,用于表示一个 JSON 数据,可以是数组或对象。数组片段,区间为[start, end),不包含end。原创 2023-10-11 09:44:40 · 80 阅读 · 0 评论 -
爬虫 — Json 模块和 Post 请求
Json(JavaScript Object Notation)是一种轻量级的数据交换格式,具有数据格式简单,读写方便易懂等很多优点。许多主流的编程语言都在用它来进行前后端的数据传输,大大的简化了服务器和客户端的开发工作量。相对于 XML 来说,更加的轻量级,更方便解析,因此许多开发者都遵循 Json 格式来进行数据的传输和交换。原创 2023-10-11 09:44:10 · 1765 阅读 · 0 评论 -
爬虫 — Js 逆向案例一英汉互译
目标网站:https://fanyi.baidu.com/需求:实现英汉互译1、分析网站加载方式动态加载,目标 url:https://fanyi.baidu.com/v2transapi?2、分析请求方式post(携带 data 参数)多抓几个包看数据变化会产生变化并且必不可少的参数:sign 加密字段3、根据加密字段找和它相关的 js 文件按 F12 打开开发者工具,找到 Search,点击4、在搜索框输入加密参数后,按回车5、寻找与加密参数相关的 js 文件。原创 2023-10-10 09:13:28 · 622 阅读 · 0 评论 -
爬虫 — Js 逆向案例五闪职网登录
目标网站:http://shanzhi.spbeen.com/login/需求:找到密码加密的过程,进行加密1、多输入几次错误的密码,查看哪些字段是加密的。2、如何没有 Search 到相关的字段,可以在 JS 里面找一找。3、如果看到 JS 文件里面有 eval(包裹的 js 代码),这种一般是对 JS 文件进行了加密,可以把代码复制到解密网站解密。将代码整个复制到文本区域内后,点击“解码”,将解码后的代码复制到新建的 JS 文件中。4、分析发现是输入的密码,所以可以直接把这部分换成密码后运行代码。原创 2023-10-10 09:12:58 · 622 阅读 · 0 评论 -
爬虫 — Js 逆向案例四网易云音乐评论
目标网站:https://music.163.com/#/song?需求:获取评论内容,用户名1、分析网站加载方式动态加载,抓包找到目标 url:https://music.163.com/weapi/comment/resource/comments/get?2、分析请求方式post,需要携带参数3、多做测试,看参数值是否变化,不变化可直接携带,变化不可直接携带4、数据是变化的,不能直接携带5、把相关的都打上断点,然后刷新页面6、可以确定需要的值是这里得到的。原创 2023-10-10 09:12:25 · 600 阅读 · 0 评论 -
爬虫 — Js 逆向案例三凡科网登录
目标网站:https://i.fkw.com/?_ta=3需求:找到密码加密的过程,进行加密1、抓到向服务器发请求的数据包,输入错误的账号和密码测试密码可以输入123456,如果发现加密后的密码为 e10adc3949ba59abbe56e057f20f883e,就可以确定加密方式为 md5。2、确定加密方式为 md5 后,可直接搜索 md5 后,将相关 js 代码直接复制下来3、将相关代码复制下来。原创 2023-10-10 09:11:55 · 622 阅读 · 0 评论 -
爬虫 — Js 逆向案例二微信公众平台登录
目标网站:https://mp.weixin.qq.com/需求:找到密码加密的过程,进行加密1、抓到向服务器发请求的数据包,输入错误的账号和密码2、找到加密字段 pwd如果 Search 里面数据太多,也可以在 Initiator 里面查找url 发送 post 请求,可以在 Initiator 里看到 Js 的执行过程执行顺序是从下往上执行在下面的越先执行,在上面的最后执行从后往前找,看是在哪一个 Js 文件当中进行了加密。原创 2023-10-10 09:11:23 · 609 阅读 · 0 评论 -
爬虫 — Bs4 数据解析
Bs4(beautifulsoup4):是一个可以从 HTML 或 XML 文件中提取数据的网页信息提取库。官方文档Bs4 与 XPath 区别XPath:根据路径找数据Bs4:使用封装好的方法获取数据。原创 2023-10-10 09:10:09 · 30 阅读 · 0 评论 -
爬虫 — App 爬虫(二)
类似于 selenium,找包比较困难,加密参数比较难解的时候使用。所需环境node.jsJava 的 SDK安卓的 SDKAppium 应用程序模拟器。原创 2023-10-10 09:09:24 · 213 阅读 · 0 评论 -
爬虫 — App 爬虫(一)
爬虫分类——数据来源1、PC 端爬虫(网页端爬虫)找数据接口(requests,scrapy等)selenium2、APP 端爬虫找数据接口获取数据接口——fiddler获取 APP 与服务器进行交互的数据包——模拟器appium1、界面展示2、快捷功能区1:给会话添加备注信息2:重新加载当前会话3:删除会话选项4:放行,和断点对应5:响应模式,当 fiddler 拿到远程的 response 后是缓存起来一次响应给客户端还是以 stream 的方式直接响应。原创 2023-10-10 09:08:54 · 2671 阅读 · 0 评论