![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
unravel_tom
这个作者很懒,什么都没留下…
展开
-
爬虫知识:补环境相关知识
在浏览器中,window对象既是BOM的核心,也是全局对象,而document对象(DOM的核心)是window对象的一个属性。:指JS代码在浏览器中的运行时环境:基于V8引擎的JavaScript运行时环境。原创 2024-06-25 00:47:56 · 1850 阅读 · 0 评论 -
爬虫案例:建设库JS逆向
这里我发现一个好用的小技巧,使用单步调试,从断点开始出发查看经过的函数基本都是我们所需的js代码,途中会跳转到其他的js文件(webpack)然后回来就可一看见MD5加密的算法了。像Math.sign这种是js的数学库文件,可以直接排除,就10几个,慢慢排查,使用断点调试。进行页面切换,抓去Ajax,发现page里面的response携带这我们所需要的数据。这里就是目标,注意这里使用了js的逗号表达式,想要查看结果悬浮,或者在控制台中查看,靠经验,运气,猜测,分析代码,观察数据,调试代码,逆向分析,等等。原创 2024-06-11 13:54:38 · 1728 阅读 · 0 评论 -
爬虫案例:毛毛组案例
Curlconverter.com 是一个工具,可以将 curl 命令转换成多种编程语言的代码片段,如 Python、JavaScript 和 PHP 等。该工具支持多种语言和框架,提供不同类型 HTTP 请求(如 GET、POST 等)的示例。所有转换都在用户的浏览器中进行,确保隐私。IT-Tools 是一个网站,提供各种在线工具,帮助 IT 专业人士和开发人员简化常见任务。使用方法也非常简单(参考网站教学),需要复制以curl(bash)格式,粘贴到网址,就可以半自动化的完成,请求代码的构建。原创 2024-04-21 22:45:46 · 374 阅读 · 1 评论 -
爬虫案例:有道翻译python逆向
我的想法:想要实现的功能是结合其他爬虫程序,进行批量的文章翻译自动化,但是这个爬虫脚本有点鸡肋,他对长文本的内容不能很好的翻译。浏览器的开发者工具,重点使用断点,和调用堆栈。原创 2024-05-25 01:58:54 · 857 阅读 · 0 评论 -
爬虫基础:HTTP协议 + cookie、session和token
大家都知道HTTP协议是无状态的。状态可以理解为客户端和服务器在某次会话中产生的数据,那无状态的就以为这些数据不会被保留。每当有新的请求发送时,就会有对应的新响应产生。协议本身并不保留之前一切的请求或响应的相关信息。一句有意思的话来描述就是人生只如初见,对服务器来说,每次的请求都是全新的,及时同一个客户端发起的多个请求间。随着Web的不断发展,因无状态而导致业务处理变得棘手的情况增多,因此我们需要解决这个问题,也就是说要让http可以“保持状态”,那么Cookie就是在这样一个场景下诞生。原创 2024-05-23 00:13:06 · 736 阅读 · 1 评论 -
爬虫工具:避免复制文字收费,VIP。。
【代码】爬虫工具:避免复制文字收费,VIP。。原创 2024-05-04 09:43:46 · 702 阅读 · 1 评论 -
爬虫学习:网易云歌曲
【代码】爬虫学习:网易云歌曲。原创 2024-02-18 23:06:15 · 1071 阅读 · 0 评论 -
爬虫案例:彼岸图网4K图片数据爬取
不要对网站进行大批量爬取,不要搞崩网站网页没有加载出来原创 2024-02-14 22:57:37 · 1129 阅读 · 3 评论 -
爬虫学习:碧血剑文本爬取
要运行代码,需要导包Win64;#首页页面进行数据解析#定位所有a标签,保存到a_list中# 章节的标题title = a.string #提取数据# 章节详情页的urldetail_url = a['href'] #提取标签属性值#详情页面进行数据解析#章节内容file_name = 'novel' + title + '.txt' #字符拼接 novel章节1.txt。原创 2024-02-08 23:49:20 · 860 阅读 · 0 评论 -
爬虫学习:肯德基位置信息
【代码】爬虫学习:肯德基位置信息。原创 2024-02-03 20:59:12 · 931 阅读 · 1 评论 -
爬虫学习:搜狗简易网页采集器
【代码】爬虫学习:搜狗简易网页采集器。原创 2024-02-02 10:33:51 · 921 阅读 · 0 评论 -
爬虫学习:下厨房的菜谱搜索
【代码】爬虫学习:下厨房的菜谱搜索。原创 2024-02-01 21:37:13 · 940 阅读 · 1 评论