爬虫&js逆向&App逆向
文章平均质量分 54
爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫
初遇我ㄖ寸の热情呢?
煎茶坐看梨门雨,情话是你,风景也是你
展开
-
【爬虫&APP逆向006】异步案列实现&selenium
比如,对于输入框,我们就调用它的输入文字和清空文字方法;其实,还有另外一些操作,它们没有特定的执行对象,比如鼠标拖曳、键盘按键等,这些动作用另一种方式来执行,那就是动作链。为什么需要等待 如果网站采用了动态html技术,那么页面上的部分元素出现/加载的时间便不能确定,这个时候就可以设置一个等待时间,强制等待指定时间,等待结束之后进行元素定位,如果还是无法定位到则报错。比如,下拉进度条,它可以直接模拟运行JavaScript,此时使用execute_script()方法即可实现。实现js注入,绕过检测。原创 2024-03-24 14:16:40 · 314 阅读 · 0 评论 -
【爬虫&APP逆向005】协程操作
最重要最核心的一点:异步机制可以增加程序的执行效率。多进程、多线程和协程就是用来实现异步机制。原创 2024-03-20 21:56:23 · 343 阅读 · 0 评论 -
【爬虫&APP逆向004】并发编程
线程预先被创建并放入线程池中,同时处理完当前任务之后并不销毁而是被安排处理下一个任务,因此能够避免多次创建线程,从而节省线程创建和销毁的开销,能带来更好的性能和系统稳定性。2.基于Process创建一个子进程对象(当前运行的整个py文件表示主进程),然后可以基于target参数将外部的一个函数注册到该子进程中。那么如果有一天我们的需求是我的主进程结束了,由主进程创建的那些子进程必须跟着结束,怎么办?无论是进程还是线程,都遵循:守护xx会在主xx运行完毕后被销毁,不管守护xx时候被执行结束。原创 2024-02-15 10:56:54 · 1199 阅读 · 0 评论 -
【爬虫&APP逆向003】视频数据爬取&Cookie&代理
案例:https://www.kuaidaili.com/free/inha(当多次对这个网站发请求的话,这个网站会被封掉)对快代理这个网站进行n次请求,直到本机无法访问快代理为止(证明本机ip被快代理封掉了)构建一个代理池(封装了很多代理ip和端口的容器),用于数据的批量爬取。现在使用代理服务器,测试一下是不是能返回代理服务器的地址。或者:自动获取cookie。原创 2023-10-29 12:41:19 · 1022 阅读 · 0 评论 -
【爬虫&APP逆向002】数据解析&防盗链
text()提取标签直系的文本内容 //text()提取标签下所有的文本内容。需求:将每一个章节的标题和内容进行爬取然后存储到文件中。原创 2023-10-29 12:37:05 · 1777 阅读 · 0 评论 -
【爬虫&APP逆向001】爬虫相关介绍&requests基础操作
什么是爬虫就是通过编写程序,“模拟”浏览器上网,然后让其在互联网中“抓取”数据的过程。模拟:浏览器本身就是一个纯天然的爬虫工具。爬虫相关的操作都是模拟/基于浏览器为基础开发实现出来的。抓取:一种是抓取一张页面中所有的数据一种是抓取页面中局部的数据提问:如果日后你的爬虫程序没有爬取到你想要的数据,why?你的程序模拟浏览器的力度不够!爬虫在应用场景的分类通用爬虫:将一整张页面源码数据进行爬取。聚焦爬虫:将一张页面中局部/指定的数据进行抓取。建立在通用爬虫的基础上。原创 2023-10-29 12:30:45 · 1747 阅读 · 0 评论 -
URLError\HTTPError&Handler处理器,自定义Opener&代理&cookie
URLError\HTTPError这两个类都在urllib.errorNameError TypeError FileNotFound 异常异常处理,结构就是:try—expect:try里面写有可能出现的异常,通过expect进行捕获URLError:(1)没有网(2)服务器连接失败(3)找不到指定的服务器例子import urlli...原创 2022-04-15 09:39:39 · 1658 阅读 · 1 评论 -
爬虫---post---ajax--- 复杂get
爬虫2post【注】表单数据的处理form_data = urllib.parse.urlencode(form_data).encode()fiddle抓包,一个本上有一个箭头,代表就是post请求import urllib.requestimport urllib.parse#获取posturl的地址post_url = "https://fanyi.baidu.com/sug...原创 2022-04-15 09:39:26 · 1715 阅读 · 1 评论 -
get方式&构建自己的UA
get方式#根据用户搜索的内容,把网页保存在本地import urllib.requestimport urllib.parseword = input("请输入您想要输入的内容:")url = "http://www.baidu.com/s?"#参数写成一个字典data = { "ie":"utf-8&am原创 2022-04-15 09:39:12 · 1464 阅读 · 0 评论 -
urllib.parse 库里面的3个函数
urllib.parse #这个库里面要了解的3个函数quote url编码函数,将中文进行转化为%xxx(见例题1)unquote url解码函数,将%xxx转化为指定字符串(见例题1)urlencode 给一个字典,将字典拼接为query_string,并且实现了编码的功能(见例题2)例题1import urllib.parse#url只...原创 2022-04-15 09:39:00 · 1681 阅读 · 0 评论 -
爬虫的概念
1.爬虫的概念什么是爬虫?写程序,然后去互联网抓取数据的过程互联网:网,当我们打开网页的时候,会有很多的a链接。有好多的a链接组成。网的节点就是每一个a链接。a链接就是url(统一资源定位符)哪些语言可以实现爬虫?(1)php 可以做,号称世界上最优美的语言。对多进程,多线程支持的不好。(2)java,也可以做爬虫,做的很好,最主要的竞争对手,缺点就是代码臃肿,修...原创 2022-04-15 09:38:45 · 1383 阅读 · 1 评论