- 博客(10)
- 收藏
- 关注
原创 综合实力测试
ob混淆是JavaScript混淆中的一种方法,是指将JavaScript代码中的变量名、函数名、字符串等替换为无意义的字符串,从而增加代码的保护性和防止代码的逆向分析。进程是操作系统进行资源分配和管理的基本单位,拥有独立的内存空间和资源,线程是进程中的执行流程,共享进程的内存和资源,协程是由应用程序控制的轻量级执行单元,共享线程的上下文和资源。(2)存储模块:(操作数据库的方法,Redis)存储获取到的代理(有序集合为redis的一种数据形式,第一可以自动去重,第二自动排序,把序作为分数,序可以重复);
2024-05-16 19:52:52 516
原创 (笔记)数据采集基础09
Object.keys 方法在 JavaScript 中用于获取一个对象自身的所有可枚举属性的键名(属性名),并以数组的形式返回。方法在 JavaScript 中用于获取一个对象的所有可枚举的自有属性的名称,包括那些不可枚举的属性。这个方法返回一个字符串数组,数组中的每个元素都是对象的一个属性名。这个方法对于理解对象的内部属性非常有用,尤其是当你想要获取对象所有的属性,包括那些可能在常规枚举中被忽略的属性时。这个方法对于确保对象的完整性和安全性非常有用,尤其是在你不希望对象的结构在运行时被改变的情况下。
2024-05-08 21:30:33 2157
原创 (笔记)数据采集基础04
Scrapy是一个基于Twisted的异步处理框架,,,,,Engine(引擎):用来处理整个系统的数据流处理、触发事务,是整个框架的核心。Item(项目):定义了爬取结果的数据结构,爬取的数据会被赋值成该对象。Scheduler(调度器):用来接受引擎发过来的请求并加入队列中,并在引擎再次请求的时候提供给引擎。Downloader(下载器):用于下载网页内容,并将网页内容返回给蜘蛛。Spiders(蜘蛛):其内定义了爬取的逻辑和网页的解析规则,它主要负责解析响应并生。
2024-04-24 19:51:08 564 1
原创 (笔记)数据采集基础02
(4)使用正常服务器(ip稳定),开一个服务口,负责监听传过来的信息,拨号服务器把当前ip主动报给正常服务器,我们就可以访问正常服务器;隧道代理(短效版)不需要像是代理IP池那样下载应用,提供短期有效的IP地址,可能就每分钟更换一次代理,每次用户访问时都会从代理IP池随机给用户分配新的IP,比短效IP具有更高的隐匿。如果请求失败,该ip改为2分;(2)存储模块:(操作数据库的方法,Redis)存储获取到的代理(有序集合为redis的一种数据形式,第一可以自动去重,第二自动排序,把序作为分数,序可以重复);
2024-04-16 18:07:13 348
原创 (笔记)数据采集基础03
生成器:用特殊方式定义的迭代器就是生成器,目前两种定义方式:(1)用()的列表生成式(2)用yield写的函数。(1)读取一个超过内存的大文件 :常见的就是分块读取,按照固定大小读取,用read就可以。5.协程线程对比:协程处理速度较快,线程随着开的数量增加,不能充分利用,会速度下降。非阻塞:程序在等待某个操作过程中,可以处理其他的事情,不被阻塞。可迭代对象:能放循环遍历的,如for循环遍历,列表等。异步:不同单元未完成某个任务,可以独立完成,无需协调。pyteer:防检测,支持异步,但不好用。
2024-04-16 11:35:00 299
原创 (笔记)数据采集基础01
202403301.浏览器环境概述(1)代码嵌入网页方法:元素直接嵌入;标签加载外部脚本;事件属性;URL协议(2)网页检查左上角箭头为选择器,选择定位元素2.网页请求与获取,加请求标头,cookie尽量不加3.xpath:(1)可以在需要定位的元素上点击右键,选copy Xpath(2)//表示前面还有别的元素,//*[@id="pagelink"]中*表示任何元素[@id="pagelink"]是对*的描述如 if source: book_url
2024-04-12 21:21:41 392 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人