网络爬虫
文章平均质量分 58
网络爬虫
acmakb
火车是向前开的.
展开
-
利用Pandas进行高效网络数据获取
本文将重点介绍如何使用Pandas库进行网络爬虫。爬取数据是获取互联网上信息的常见方式之一,而Pandas作为一种强大的数据处理和分析工具,为我们提供了便捷的方法来处理和清洗从网页上获取的数据。文章将从爬取网页数据开始,包括使用Python的Requests库发送HTTP请求获取网页内容,并使用Pandas的功能来解析和提取所需的数据。我们还将讨论如何处理网页中的表格数据、处理和清洗数据、保存数据到文件等常见任务。原创 2023-12-29 21:07:12 · 903 阅读 · 1 评论 -
获取网络ppt资源
本篇博客将介绍如何使用爬虫技术来免费获取百度文库收费PPT的方法。百度文库上有许多精彩的PPT资源,但大多数需要付费才能下载。对于那些希望以免费方式获取所需资源的用户来说,这篇博客将为他们提供解决方案。通过使用Python的爬虫技术和相关工具,我们可以自动化地获取这些收费PPT,无需支付任何费用。在博客中,将介绍爬取网页内容、提取目标链接以及下载PPT的具体步骤。此外,还会强调合法性和道德准则的重要性,确保我们在使用爬虫技术时遵守法律和尊重版权。原创 2023-12-05 21:23:06 · 2128 阅读 · 4 评论 -
x大网校登录接口js逆向分析
牛啊,我第一次发现还有闭包这个东西,我感觉这个闭包的意思的端点执行前的数据。然后取消XHR端点,改password哪一行打上断点。模拟登录,得到token值,才能对内部数据进行解析。一个验证码,一个密码加密,一个用户名。我说的没错,他断住了。原创 2023-11-26 18:44:44 · 141 阅读 · 0 评论 -
爬虫逆向你应该懂得Javascript知识
就是 broswer object model 浏览器对象,浏览器自带的对象有 window,navigate,loaction,history,screen ,这个地方很重要,为什么需要补环境,因为我们的使用nodejs模拟浏览器执行js,但是node的环境是没有这些对象的。 调用函数时,解析器也不会检查实参的数量,多余实参不会被赋值,如果实参的数量少于形参的数量,则没有对应实参的形参将是undefined。元素节点.insertBefore(element) 在指定的子节点前面插入新的子节点。原创 2023-11-23 20:21:13 · 1954 阅读 · 1 评论 -
关于爬虫中的hook(defineProperty,hook cookies, hook载荷数据,hookXHR)
我们会发现,调用这个对象的属性的时候会自动调用那个函数,而且并没有直接输出我们的age属性值,age属性值被拦截了。我们会发现这个每一页数据的cookies的v都在发生变化,我们需要找到相应的js文件。奇怪吧,原来设置值有的时候可以不对自己进行设置值,设置值可以有输出语句。获得cookie的时候,记着把cookie清空。然后依次向下找,n的值就是cookie中v的值。这样的形式可以使用如下hook代码。我们会发现网址里面的数据被加密了。的代码,所以向下找。原创 2023-11-19 12:38:28 · 815 阅读 · 0 评论 -
x程无忧sign逆向分析
弄了半天,发现这个sign是写在document里面的,我们可以xpath,或者正则得到这个数据。 有一点前端基础的同学们,可能发现很简单,就是调用jQuery根据id获取值,当然也可以扣js但是需要补环境,我们后面的实例中会说到,本次就不涉及补环境了。 大部分的网站不会在send和ajax进行参数的加密,只是作为请求发送.观察这个js文件,感觉很像自调用函数,而且还有点想webpack.我们会发现有两个接口,一个结果用于验证,一个接口用于返回信息。去掉前方端点和xhr端点,因为我们找到真正的位置了。原创 2023-11-18 21:13:34 · 794 阅读 · 0 评论 -
爬取全国高校数据 (高校名称,高校所在地,高校类型,高校性质,高校特色,高校隶属,学校网站)
爬取全国高校数据 (高校名称,高校所在地,高校类型,高校性质,高校特色,高校隶属,学校网站)原创 2023-11-17 19:38:07 · 743 阅读 · 2 评论 -
某建筑网页js逆向分析过程(有坑)
注意上面我打断点的位置,在这个解密函数这行打上断点,这行之前应该iv和密钥已经被确定了。我们可以思考一下哪里错了,第一密文数据肯定没有错,有错的话就是iv值,密钥有一些问题。关于iv和key变不变的问题,就看他每一次有没有发送性的请求,没有的话就是固定的。会发现,f在解密之前已经生成好了,而且优先级很高,没有被后面那个f覆盖。对比一下,发现密钥f的值有变换,说明f被覆盖了。我需要使用覆盖后的。 当你有一个包含JSON字符串的变量时,你可以使用。表单中都是正常数据,没有特殊的数据。没办法,在加个断点呗。原创 2023-11-14 14:56:27 · 1422 阅读 · 1 评论 -
JavaScript逆向之Hook技术
JavaScript逆向工程是一项令人着迷的技术,而其中的Hook技术更是引人注目。通过使用Hook技术,我们可以改变现有代码的执行方式,从而实现自定义的行为修改、调试、性能分析和安全研究等目的。Hook技术包括函数重写、代理对象和动态脚本注入等方法。函数重写可以劫持函数调用、记录活动、修改参数和返回值等,而代理对象则用于拦截对象访问和修改属性行为。动态脚本注入允许我们在页面加载或运行时注入自定义代码,以修改页面行为或劫持AJAX请求。原创 2023-11-12 20:38:27 · 820 阅读 · 0 评论 -
xxx升学助考网登录参数跟栈分析
这个案例讲解了如何跟栈,总的来说 我们从结果出发,一步步向前寻找,找到加密或者解密的位置然后再相应的函数打上断点,(这个端点会先被卡住,因为是栈),大家一步步多尝试一下,逆向的学习在于模仿和总结。原创 2023-11-09 22:43:52 · 81 阅读 · 0 评论 -
爬虫之数据解析
何为数据解析- 概念:就是将爬取到数据中局部的指定的数据进行提取- 作用:实现聚焦爬虫- 数据解析通用原理: - html是用来展示数据,html中展示的数据正是我们要爬取或者采集的数据 - html所展示的数据/想要爬取的数据只会存在于标签之间或者标签的属性中 - 数据解析的通用原理: - 标签定位 - 提取标签中存储的数据- 聚焦爬虫编码流程 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储原创 2023-11-08 22:16:23 · 1037 阅读 · 1 评论 -
AED/DES加密算法
本文将介绍两种常见的加密算法:对称加密算法和非对称加密算法。对称加密算法包括DES和AES,而非对称加密算法则以RSA为代表。对称加密算法:DES(Data Encryption Standard)是一种使用56位密钥进行加密和解密的对称加密算法。由于密钥长度较短,DES已经逐渐被弃用。AES(Advanced Encryption Standard)是一种更为安全的对称加密算法。它支持128位、192位和256位密钥长度,目前被广泛应用于各个领域。AES的密钥长度较长,提高了破解的难度和成本。原创 2023-11-07 21:32:02 · 649 阅读 · 0 评论 -
编码与解码及md5与base64算法python实现
Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符(包括a-z、A-Z、0-9、/、+)来表示二进制数据的方法。 MD5(Message Digest Algorithm 5)是一种常见的哈希算法,用于将任意长度的数据(如字符串、文件)映射为固定长度的哈希值。进行 Base64 编码的解码操作,将 Base64 编码的字符串还原为原始的字节串或文本。编码:将人类可识别的字符转换为机器可识别的字节码 / 字节序列。 对于编码操作,可以使用。原创 2023-11-04 19:59:05 · 232 阅读 · 0 评论 -
js逆向之有道翻译
首先我们要知道AES和DES加密是对称加密,也就是加密和解密是同一把钥匙,上面是先使用aes再使用base64。 它又对key,iv进行md5数据加密了,然后创建一个aes模型,然后再使用bs64,最后在转化为utf-8即可。 我们会发现前面发送请求得到的密文数据,但是浏览器会通过js转化为明文,所以我们还有继续。 就两个动态变化的参数,第一个是 sign就是签名值,第二个是时间戳很简单。 需要加密解密的数据 ,key(密钥),iv(值) 全局搜素sign,打断点,然后跳进去k函数。原创 2023-11-04 17:49:23 · 617 阅读 · 0 评论 -
js逆向之百度翻译
注意: var r=“320305.131321201” 这个是写死的,如果不写的话,会缺少一个r ,大家运行的时候缺少什么补充什么即可。我们点击 那个b函发现到这里了,然后我们打一个断点,然后再结束的地方打一个断点。因为我们这个函数没有完全执行,又想看看这个函数向下执行 会发生什么所以打断点。技巧:一般先分析 index*.js 或者main.js等等。原创 2023-11-03 23:40:58 · 716 阅读 · 0 评论 -
urllib.parse库对URL的操作
urllib.parse库对URL的操作。包括urlencode,quote,unquote,urljoin,urlparse 的使用原创 2023-11-03 21:29:08 · 125 阅读 · 0 评论 -
某信开发者平台登录页面js逆向分析
某信开发者平台登录页面js逆向分析网址:https://mp.weixin.qq.com/微信公众平台密码逆向:打开搜索:输入pwd但是我们只传进来一个参数e,实际参数e,没有用到的话为NULL或者undefied,找到离其最近的大括号,这里面是相同类型的函数如果未定义,将其设置为{},或者undefied即可。原创 2023-11-02 21:30:15 · 562 阅读 · 0 评论 -
初识爬虫requests模块使用步骤
什么是爬虫就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程模拟:浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。抓取:抓取网页数据分两种情况:将一个页面所有的数据抓取到将页面中局部的数据抓取到requests就是爬虫中一个基于网络请求的模块。作用:模拟浏览器上网的。urllib模块就是一个老版的requests模块,现在没人用urllib,而且操作复杂分析该网站的反爬机制:从爬取到的内容中提取到了一个关键信息:网站检测到了异常的访问请求。原创 2023-10-30 23:07:31 · 1264 阅读 · 0 评论 -
python如何执行js代码
在js逆向的过程中,一般来说思路有两种:读懂js代码,使用python直接改写js代码(这一种方法对javascript具有很高的要求)不进行js改写,使用python直接调用js代码(一般来说是使用这种方法进行逆向分析)看了很多文档,我总结出使用python如何调用js的三种方法,现在一一为大家讲解。当然:必须先安装 execjs 这个模块,当然你本机还需要安装node.js,js代码的执行是依靠node来进行执行的。原创 2023-09-15 19:42:38 · 820 阅读 · 0 评论 -
网络爬虫基础一-----等待时间与User-Agent伪装
在接下来的一段时间内,我会不断进行更新爬虫模块,将提供给大家学习和使用,同时复习一下之前学到的知识。(该模块用于设置等待时间,防止被检测的爬虫程序)1.random.random 生成0-1之间的随机浮点数2.random.uniform(a, b): 返回随机生成的一个浮点数,范围在a-b之间,一般是使用这个作为生成等待时间3.random.randint(a,b):生成指定范围内的整数4.random.choice() 在列表等可迭代对象中生成随机挑选一个。原创 2023-09-08 15:29:54 · 709 阅读 · 1 评论