爬虫
文章平均质量分 53
chantor7
这个作者很懒,什么都没留下…
展开
-
(八)AES和RSA加解密,附GO语言AES解密代码
(八)AES和RSA加解密,附GO语言AES解密代码 在(学习)爬某网站时发现欸?怎么被加密了?于是… 关于AES、RSA算法看这:https://blog.csdn.net/LC_Liangchao/article/details/121769279,其实当场查资料的时候,看到一篇很好很全的介绍,可惜我又没收藏保存,啊一定要养成变做变记录的习惯。 AES在线解密:https://the-x.cn/zh-cn/cryptography/Aes.aspx两篇关于某勾新升级安全策略的分析: h原创 2022-05-05 14:41:20 · 662 阅读 · 0 评论 -
(六)实战:一些废话
(六)实战:一些废话 可以不用看这个。 哔哔几句并没啥用的话:多研究研究网站。有些网站地址栏采用编码方式构成,可以点点点找一下规律,也找一下F12接收的一大堆网络请求响应,可能它哪个代码就传了对应编码组成,善用搜索。爬虫有风险。...原创 2022-05-05 14:28:28 · 74 阅读 · 0 评论 -
(五)通过谷歌插件实现Ajax劫持
(五)通过谷歌插件实现Ajax劫持 通过Selenium和代理已经可以很顺畅地拿到网页页面上可以看到的内容了。某些网站采用了Ajax技术,就我遇到的一个问题来说吧,在爬某网站的某个主页面的时候,它使用Ajax动态更新翻页内容,URL并没有变,这时候如果直接按URL发请求过去请求到的始终都是第一页的信息(如果有大神看见拜托指点一下),加上我发现它其实还有很多有用的信息并没有在页面直接显示,所以就有了能不能不通过页面直接把信息下载下来的想法。 下面是我参考一些资料,写的一个例子,具体实现的是获取名字原创 2022-05-05 14:25:52 · 1373 阅读 · 0 评论 -
(四)Selenium通过谷歌插件实现使用隧道代理
(四)Selenium通过谷歌插件实现使用隧道代理文章目录(四)Selenium通过谷歌插件实现使用隧道代理快速实现参考资料快速实现 关于如何使用代理,在快代理或其他代理网站都给出了很好的说明和示例代码,这里说一下如何使用Selenium用隧道代理。Selenium本身是不支持的,因为它的本意是支持自动化测试而不是去爬爬爬(网上看的)。所以这里通过使用谷歌浏览器插件来实现。 1.新建文件夹proxy,插件编写 manifest.json文件{ "version": "原创 2022-03-08 09:31:41 · 727 阅读 · 0 评论 -
(三)Selenium使用和常见问题
(三)Selenium使用和常见问题Selenium使用指南 前面说了直接使用http发送请求,但是很多网站都有很强的反爬,迷惑不了他们。这时,可以想到平常我们用浏览器轻轻松松打开一个网站根本不需要考虑什么被限制,那有没有什么能够像人一样打开浏览器,然后拿到页面数据的东西呢。此时,就要祭出我们的大杀器**Selenium**,selenium是一款web自动化测试的工具,换句话说就是模拟人工操作浏览器的工具。 打开selenium官网,我们发现它支Java/Python/C#/Ruby原创 2022-03-08 09:26:20 · 808 阅读 · 0 评论 -
(二)goQuery
(二)goQuery 在上一篇(一)中我们说了可以通过正则来提取我们想要从网站响应中拿到的数据,但是这种方法比较“笨重”,而且我个人觉得比较麻烦,不是特别好用。这个时候就要说起goQuery,它是jQuery的go版本实现。因为我没有了解过jQuery,我的个人理解前端排版都是会生成一个dom树,各个要显示的元素就一级一级“挂”在树上的某个位置,前端需要找到某个元素肯定需要一个快速定位的方法,肯定不能是对源代码进行文档搜索修改,goQuery就是把我们获得的响应里的页码字符串frameHtml重建回一原创 2022-03-08 09:13:03 · 911 阅读 · 0 评论 -
(一)基础:通过简单HTTP请求和正则进行数据爬取解析
(一)基础:通过简单HTTP请求和正则进行数据爬取解析发送简单http请求package main import (原创 2022-03-08 09:10:07 · 593 阅读 · 0 评论