python爬虫
文章平均质量分 58
一些爬虫相关的知识。
不侠居
学习,学习,再学习
展开
-
运行条件器
介绍运行模块时会有一些条件模块介绍有一个专门存储运行任务的列表当需要运行3次任务时,可以使用次数条件当需要满足某个任务运行后,再运行任务,可以使用任务条件次数条件设置运行次数,任务运行设置的次数def count_task(self, condition, task): self.tasks.append(task.get_name) for i in range(condition):原创 2022-10-14 20:02:56 · 201 阅读 · 1 评论 -
插件系统(全都插上)
介绍在平时我们想为程序添加功能,需要去改程序主代码,挺麻烦的。所以模块化,插件系统就出现了文件结构PluginMaganer.py 👉插件管理器(管理插件的注册,运行等)plugins👉插件存放的文件夹(所有插件都存放在这个文件夹内)plugin1.py👉插件1plugin2.py👉插件2插件管理器插件管理器也是一个插件1.初始化五个变量变量描述plugins存放插件名称的列表,用来注册插件的plugin_path插件文件夹路径name插件名原创 2022-10-07 10:56:53 · 731 阅读 · 1 评论 -
请求库requests
前期准备requests是第三方库安装requests库pip install requests使用requests库import requests简单的get/post发送一个get请求# 发送请求import requestsresponse = requests.get('http://httpbin.org/get')# 获取返回的html信息print(response.text)如何返回的是乱码需要看清网站用的是什么编码格式,例如网站用的是utf-8添加下面原创 2022-10-02 13:33:51 · 286 阅读 · 0 评论 -
python爬虫URL管理器
python爬虫URL管理器1.前述2.结构分层2.1两个集合2.2 主要方法3.全部代码1.前述在爬虫中需要对URL进行处理,统一管理URL,方便使用URL。2.结构分层2.1两个集合定义两个集合放在类的初始化方法中,选择集合这个数据类型,是因为集合的天然去重性,在同一个集合中不会出现一样的数据。这两个集合分别时:未爬取的URL集合,已爬取的URL集合用来存储没有爬取过数据的URL和已经爬取过数据的URL,为防止重复爬取同一个URL的数据。def __init__(self):原创 2021-11-14 15:36:17 · 1753 阅读 · 0 评论 -
python爬虫-存储模块
python爬虫-存储模块1.前述2.txt文件存储存储在表格中存储在文档中存储二进制文件1.前述在我们爬取数据中需要存储一些数据,这里写了几种存储的方式。2.txt文件存储这是一种普通的存储方式,也是一种简单的存储方式。 def data_txt(data): with open('Text.txt','a',encoding='utf-8') as file: file.write('\n'.join(data))在数据写入文件中使用了join()方原创 2021-11-12 19:48:01 · 779 阅读 · 0 评论 -
python下载大型文件处理
python下载大型文件处理1.前述2.流下载1.前述下载大型文件时,我们一般都是这样下载的import requestsurl = ""r = requests.get(url)with open('1.mp4', 'wb') as f: f.write(r.content)这样下载大型文件时存在一个问题,那就是内存使用量迅速上升,可能会造成电脑卡死。所以我们需要换一个方式进行下载2.流下载我们可以使用文本流进行下载.在requests模块中有一个这样的方法Response.原创 2021-11-06 16:55:51 · 2027 阅读 · 0 评论 -
python 断点续传
python 断点续传1.前序2.技术原理2.1 Content-Range2.2 Range3. 代码实现1.前序当下载突然断开后,断点续传就需要了,继续前面下载的内容下载。解决了不需要重复下载2.技术原理HTTP/1.1 开始支持断点续传,一般断点下载会用到 Range 和 Content-Range 实体头Range是请求头,Content-Range是响应头2.1 Content-Range用于响应头中语法:Content-Length: <length>2.2 R原创 2021-11-06 11:10:27 · 3009 阅读 · 0 评论 -
爬取IP(快代理)
python - 爬IP分析网页获取IP储存IP全部代码分析网页这次分析的是快代理,就是这个想要获取这上面的IP需要分析网页结构打开开发者工具进行分析发现所有IP组数据在tr节点中,每个具体数据在td节点中代码实现时,从这个节点中获取信息,有很多方法如果需要多页爬取,需要分析网址规律从以上图片可得知,每页 网址前部分相同,都是这个https://www.kuaidaili.com/free/inha/后面是页数获取IP所以可以这样进行获取import requestsfr原创 2021-11-05 16:50:22 · 1613 阅读 · 4 评论 -
有道翻译js逆向
有道翻译js逆向有道是怎么翻译的构造请求代码实现有道是怎么翻译的先打开有道翻译,在里面输出英文进行翻译,左侧出现翻译结果。初步推测这些信息是由xhr控制,所以我打开了开发者工具,选择网络这一栏,并重新翻译一次,并勾选Fech/XHR发现有一个xhr请求,点开看看是不是我们需要的。好像是我们需要的,也就是说我们只需要进行请求这个链接,就可以获得数据。看一下这链接请求正文,发现这个是POST请求。在看一下这个链接的表单数据:构造请求经过多次翻译,发现有几个参数不变: "from原创 2021-10-30 13:19:18 · 1009 阅读 · 0 评论 -
爬取网页图片
爬取网页图片简介流程图程序分析简介快乐在满足中求,烦恼多从欲中来记录程序的点点滴滴。输入一个网址从这个网址中解析出图片,并将它保存在本地流程图程序分析解析主网址def get_urls(): url = 'http://www.nipic.com/show/35350678.html' # 主网址 pattern = "(http.*?jpg)" header = { 'user-agent': 'Mozilla/5.0 (Windo原创 2021-05-22 15:01:23 · 910 阅读 · 0 评论