爬虫专栏
文章平均质量分 72
爬虫学习路程
lxtx-0510
这个作者很懒,什么都没留下…
展开
-
【js逆向】数据解析
Regular Expression, 正则表达式, 一种使用表达式的方式对字符串进行匹配的语法规则.我们抓取到的网页源代码本质上就是一个超长的字符串, 想从里面提取内容.用正则再合适不过了.正则的优点: 速度快, 效率高, 准确性高 正则的缺点: 新手上手难度有点儿高.不过只要掌握了正则编写的逻辑关系, 写出一个提取页面内容的正则其实并不复杂正则的语法: 使用元字符进行排列组合用来匹配字符串 在线测试正则表达式。原创 2024-11-07 07:23:31 · 572 阅读 · 1 评论 -
【js逆向】scrapy基础
Scrapy到目前为止依然是这个星球上最流行的爬虫框架. 摘一下官方给出对scrapy的介绍scrapy的特点: 速度快, 简单, 可扩展性强.Scrapy的官方文档(英文):在上述案例中, 我们使用字典作为数据传递的载体, 但是如果数据量非常大. 由于字典的key是随意创建的. 极易出现问题, 此时再用字典就不合适了. Scrapy中提供item作为数据格式的声明位置. 我们可以在items.py文件提前定义好该爬虫在进行数据传输时的数据格式. 然后再写代码的时候就有了数据名称的依据了.原创 2024-01-30 23:36:14 · 1607 阅读 · 0 评论 -
【js逆向】请求头
首先, cookie就是保存在客户端(浏览器)上的一个字符串. 在每次发送请求时, 浏览器会自动的带上cookie的信息传递给服务器.尤其在用户登录后, 为了能准确的获取到用户登录信息. cookie一般都会在请求是跟随请求头一起提交到服务器.原创 2024-01-11 23:57:23 · 1232 阅读 · 0 评论 -
【js逆向】爬虫之进程,线程,协程
进程:运行中的程序. 每次我们执行一个程序, 咱们的操作系统对自动的为这个程序准备一些必要的资源(例如, 分配内存, 创建一个能够执行的线程. )线程:程序内, 可以直接被CPU调度的执行过程. 是操作系统能够进行运算调度的最小单位. 它被包含在进程之中, 是进程中的实际运作单位.这样一种模型, 在程序遇到了IO操作(费时不费力的操作)时, 自动切换到其他任务. 该模型被称为协程.原创 2024-01-06 11:43:03 · 1473 阅读 · 0 评论 -
【JS逆向】如何一招彻底解决selenium WebDriver无响应
selenium 无响应,最常见的原因是,webDriver与浏览器版本不匹配导致的。而chrome 目前新的版本都是会自动升级的,这就会导致一段时间不用selenium时,driver就无法使用了。原创 2024-01-02 00:05:06 · 5198 阅读 · 0 评论 -
anancoda安装python环境教程
对于没有root权限的用户来说,有时候需要安装环境确实是一件麻烦事,安装python也是如此,此处用第三方anacoda在有root权限的环境上做好处理,再移到没有环境的服务器上,方便快捷,省去很多不必要的麻烦原创 2022-12-08 06:44:18 · 931 阅读 · 0 评论
分享