![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 89
HG。
.
展开
-
AST反混淆js代码——猿人学竞赛第二题
猿人学js比赛第二题还原分析原创 2023-06-12 14:17:01 · 1162 阅读 · 0 评论 -
记一次js逆向详细过程
目标网站原创 2022-04-04 17:17:58 · 4388 阅读 · 1 评论 -
Python网络爬虫基本库的使用(大章)
学习爬虫,最基本的操作就是模拟浏览器向服务器发出请求。Pyhton提供了功能齐全的类库来帮助我们实现这些需求。接下来,就让我们从最基础的部分开始了解HTTP库的使用方法吧。urllib 的使用版本:在Python2中,有urllib和urllib2两个库来实现请求的发送。而在python3中,已经不存在urllib2这个库了,统一为urllib。简介:urllib是python内置的http请求库,也就是说不需要额外安装即可使用。它包含如下四个模块。request:它是最基本的 HTTP 请求模块,原创 2022-02-07 14:18:49 · 124 阅读 · 0 评论 -
猿人学js逆向第一题
原创 2021-12-07 22:41:23 · 259 阅读 · 0 评论 -
Python爬虫实战————百度翻译Js逆向
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-11-02 17:27:16 · 978 阅读 · 0 评论 -
Scrapy CrawlSpider
CrawlSpiderCrawlSpider 是 Scrapy 提供的一个通用 Spider。在 Spider 里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则有一个专门的数据结构 Rule 表示。Rule 里包含提取和跟进页面的配置,Spider 会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用到哪个方法进行解析等。RuleCrawlSpider 里最重要的就是Rule的定义了,它的定义和参数如下所示:class scrapy.spiders.Rule(原创 2021-07-02 21:10:07 · 295 阅读 · 0 评论 -
使用Scrapy爬取励志名句————祝万千学子高考顺利
6月7日,2021年全国高考正式拉开大幕,1078万考生将赶赴考场,迎接人生路上的一次大考。在此,我将使用Scrapy爬取一些励志名句献给广大的高考考生,祝他们高考顺利,学业有成!流程分析创建项目创建爬虫程序进行初始化设置分析网页并创建Item代码实现创建项目首先,我们要创建一个项目,通过下面的命令来实现创建项目:scrapy startproject gsw执行上述代码后,可以看到在文件下创建了一个名为gsw的项目文件夹,其目录结构如下:创建爬虫程序创建好项目后,我们需要先创建原创 2021-06-07 20:29:30 · 636 阅读 · 4 评论 -
Scrapy框架入门
Scrapy简介原创 2021-06-07 18:07:36 · 147 阅读 · 0 评论 -
简单图形验证码的识别
目前,许多网站采取各种各样的措施来反爬虫,其中一个措施是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码。后来 12306 验证码的出现使得行为验证码开始发展起来,用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字,点击与文字描述相符的图片,验证码完全正确,验证才能通过。现在这种交互式验证码越来越多,如极验滑动验证码需要滑动拼合滑块才可以完成验证,点触验证码需要完全点击正确结果才原创 2021-05-06 22:06:26 · 5023 阅读 · 0 评论 -
动态渲染页面爬取
在之前,我们了解了 Ajax 的分析和抓取方式,这其实也是 JavaScript 动态渲染的页面的一种情形,通过直接分析 Ajax ,我们仍然可以借助 requests 或 urllib 来实现数据爬取。不过,JavaScript 渲染的页面不止 Ajax 一种,为了解决这些问题,我们可以直接使用模拟浏览器运行的方式来实现。这样就可以做到在浏览器中看到是什么样,抓取到的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面,不用管网页后台的 Ajax原创 2021-04-29 20:28:27 · 234 阅读 · 0 评论 -
Ajax数据爬取
有时候我 在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有 这是因为 quests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 jax 加载的, 可能是包含在 TML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成...原创 2021-04-26 00:36:56 · 470 阅读 · 0 评论 -
数据存储——数据库
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表,每一列就是一个字段,每一行就是一条记录。表可以看作某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系。多个表组成一个数据库,也就是关系型数据库。关系型数据库有多种,如SQLite、MySQL、Oracle、SQL Server、DB2等。MySQL的存储本节我们主要介绍Python3下MySQL的存储。在python2中,连接MySQL的库大原创 2021-04-25 00:35:48 · 1350 阅读 · 0 评论 -
Beautiful Soup的使用
使用Beautiful Soup对于一个网页来说,都有一定的特殊结构和层次关系,而且很多节点都有id或class属性来做区分,所以我们也可以借助它们的结构和属性来进行数据提取。简介简单来说,Beautiful Soup就是Python的一个HTML 或 XML的解析库,可以用它来方便的从网页中来提取数据。利用它可以省去很多繁琐的提取工作,提高了工作效率。解析器Beautiful Soup 在解析时实际上依赖于解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lx原创 2021-04-07 14:56:15 · 637 阅读 · 1 评论 -
爬虫解析库——XPath的使用
使用XPathXPath,全称 XML Path Language,即XML 路径语言,它是一门在 XML 文档中查找信息的语言。但是它同样适用于 HTML 文档的搜索。所以在做爬虫的时候,我们完全可以使用 XPath 来做相应的信息提取。XPath 概览XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理。几乎所有我们想要定位的节点,都可以用 XPath 来选择。XPath 常用规则下图原创 2021-03-15 23:14:36 · 904 阅读 · 1 评论 -
正则表达式快速入门和爬虫
正则表达式简介正则表达式,又称规则表达式。是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。实例引入下面就用几个实例来看一下正则表达式去的用法。我们可以打开正则表达式测试工具 https://regex101.com/ ,输入待匹配的文本以及相应的正则表达式,就可以得出相应的匹配结果。例如,这里输入待匹配的文本如下:Hello,原创 2021-03-13 15:31:08 · 118 阅读 · 0 评论 -
Python 爬虫网络请求模块下——requests
requests上一节我们了解了 urllib 的基本用法,但是其中确实有不方便的地方,比如处理网页验证,需要写Opener 和 Handler 来处理。为了更加方便的实现这些操作,就有了更为强大的库requests 。基本用法安装模块我们可以使用pip这个包管理工具进行安装在命令行界面中运行如下命令,即可完成requests的安装:pip install requestsGET 请求HTTP 中最常见的请求之一就是GET 请求,下面首先来详细了解一下利用 requests 构建 GET 请求原创 2021-02-28 23:13:05 · 160 阅读 · 0 评论 -
Python 爬虫网络请求模块上——urllib
urllib简介:urllib是python内置的http请求库版本python2 :urllib2、urllibpython3 :把urllib和urllib2合并1、请求模块:urllib.requesturllib.request.urlopen(),urlopen()方法中的url参数可以是字符串,也可以是一个Request对象作用 :向网站发起一个请求并获取响应字节流 = response.read()字符串 = response.read().decode(“utf-8”)#原创 2021-02-10 21:51:47 · 187 阅读 · 0 评论 -
Python 爬虫相关知识简介
通讯协议原创 2021-01-24 21:47:42 · 497 阅读 · 0 评论