python高并发无限采集域名

最新推荐文章于 2022-03-20 14:13:02 发布

qscft1234

最新推荐文章于 2022-03-20 14:13:02 发布

阅读量583

点赞数

分类专栏： python 文章标签：安全开发

本文链接：https://blog.csdn.net/u012795264/article/details/115521249

版权

本文介绍了使用Python的asyncio和aiohttp库进行高并发域名采集的项目，通过异步框架采集网站内页链接和外链，详细讨论了在实现过程中遇到的坑，包括MySQL连接池的处理、递归采集的优化和内存管理。作者分享了一个月采集过亿域名的成果，并提供域名数据库和程序的购买信息。

摘要由CSDN通过智能技术生成

python高并发无限采集域名

前言
- 项目原理

前言

渗透测试第一步是收集信息，找到和漏洞匹配的目标肯定美滋滋,那我们就先采集大量的域名然后再筛选。于是就有了这个项目。

先看下目前成果。
Alt
一个月的采集结果,只要服务器配置高一点,三个月至少能采集过亿的域名。

项目原理

利用python3异步asyncio+aiohttp 高并发采集网站内页链接+外链

内链采集写入link表中间,没有采集过的内链 mark=0,采集过的内链标识 mark=1。外链写入domain表中,没有采集过的mark=0,采集过的mark=1。

if 'http' in tag_a["href"] and domain not in tag_a["href"] and "." in tag_a["href"] : 
	out_change = parse

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qscft1234

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python网络数据采集知识点

weixin_48423550的博客

08-24

491

网络数据采集知识点总结希望对大家有用爬虫的合法性探讨法不禁止即为许可 robots协议隐匿身份高匿商业代理 TOR（洋葱路由）爬虫的分类通用爬虫定向爬虫爬虫程序的一般步骤 URL —> Universal Resource Locator URI —> Universal Resource Identifier URI = URL + URN 协议://用户名:口令@域名或IP地址:端口/路径1/路径2/资源名称 https://www.baidu.co

Python-自动化子域名简单收集去重获取网站banner信息

08-10

自动化子域名简单收集去重获取网站banner信息

参与评论您还未登录，请先登录后发表或查看评论

高并发数据采集的架构应用（Redis的应用）

weixin_30273763的博客

12-22

236

问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约3W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是报表数据必要在规定的时间内完成。技术障碍： 1. 面对用户量的增长，记录数3W倍的增长，如何保证这些记录能够在比较快的时间内进入存储介质。　 2. 应对用户量的增长，如何...

python全球域名采集_python子域名收集器

weixin_30468419的博客

01-29

404

今天心血来潮做了一个子域名收集器。过程是蛋疼啊！这里先感谢一下qpython群的咸鱼大佬，在换页的时候出了点毛病，讲到后面我们就知道了。思路：代码开始:我们要用到的模块是RequestsBs4模块里的BeautifulSoupTime模块如果BeautifulSoup没有安装方法：LINUX：sudo pip install bs4WINDOWS:pip install bs4Import req...

python子域名收集器

weixin_30376163的博客

12-31

207

今天心血来潮做了一个子域名收集器。过程是蛋疼啊！这里先感谢一下qpython群的咸鱼大佬，在换页的时候出了点毛病，讲到后面我们就知道了。思路：代码开始: 我们要用到的模块是 Requests Bs4模块里的BeautifulSoup Time模块如果BeautifulSoup没有安装方法： LINUX：sudo pip install bs4 W...

基于高并发的数据采集器

qzshiyongjie123的专栏

02-19

4673

项目背景：数据采集是当前很多智能设备都需要的。数据类型有很多种，有字符串，有json等等。交互协议有基于tcp的，有基于http的。现在针对原先项目面临的问题做出解决方案。2.面临问题1：并发量较低：原先项目采用裸写nio的方式，由于java本身的nio bug以及有些地方写的不太到位，单台机器并发量在200左右 2：业务逻辑耦合度相对较高，可读性差：由于很多地方采用字符串截取匹配来做路由的方式

Python网络数据采集入门教程！

Pythoncxy的博客

08-30

1730

在这篇文章中，我们将介绍Python提供的几乎所有的网络数据采集工具，你可以将本文看作是我们的《终极网络数据采集指南》的系列文章。我们将从最基本的工具到最先进的工具进行介绍，并将涵盖每一个的利弊。当然，我们并不能涵盖我们讨论的每个工具的所有方面，但是这篇文章应该足以让你了解哪些工具可以做什么，以及何时使用哪些工具。 Python资源共享群：626017123 注意:当我在这篇博客文章中谈论Py...

Python网络数据采集入门教程

10-14

1690

在这篇文章中，我们将介绍Python提供的几乎所有的网络数据采集工具，你可以将本文看作是我们的《终极网络数据采集指南》的系列文章。我们将从最基本的工具到最先进的工具进行介绍，并将涵盖每一个的利弊。当然，我们并不能涵盖我们讨论的每个工具的所有方面，但是这篇文章应该足以让你了解哪些工具可以做什么，以及何时使用哪些工具。注意:当我在这篇博客文章中谈论Python时，你应该假设我谈论的是Py...

Python异步网络爬虫：突破并发限制，实现高速数据采集

![Python异步网络爬虫：突破并发限制，实现高速...* **高并发性：**可以同时处理多个网络请求，充分利用网络带宽。 * **低延迟：**非阻塞IO避免了等待网络响应的阻塞，降低了爬虫延迟。 * **高吞吐量：**通过并发处理，

python获取url顶级域名

09-11

python获取url顶级域名：支持 http://baidu.com www.baidu.com http://www.baidu.com 后缀支持： ".com", ".cn", ".com.cn", ".gov", ".net", ".edu.cn", ".net.cn", ".org.cn", ".co.jp", ".gov.cn", ".co.uk", "ac.cn", ".edu", ".tv",".info", ".ac", ".ag", ".am", ".at", ".be", ".biz", ".bz", ".cc", ".de", ".es", ".eu", ".fm", ".gs", ".hk", ".in", ".info", ".io", ".it", ".jp", ".la", ".md", ".ms", ".name", ".nl", ".nu", ".org", ".pl", ".ru", ".sc", ".se", ".sg", ".sh", ".tc", ".tk", ".tv", ".tw", ".us", ".co",".uk", ".vc", ".vg", ".ws", ".il", ".li", ".nz"

多线程高并发采集器

05-05

功能分析业务功能分析与实现客户端 1) 读取日志文件 2) 解析日志文件 3) 匹配处理日志对数据 4) 向服务器发送日志数据服务端 5) 接收日志数据 6) 保存日志数据 7) 日志数据入库主线程： 1）监听服务器端口 2）等待客户端的连接 3）如果有客户连接进来创建数据接收线程 LogReceiver 并且提交到线程池执行 4）返回（2）接收数据线程 LogReceiver 1）接收用户的Request 2）获取用户发送过来的 LogRec集合数据 3）推送数据到阻塞队列中 4）如果推送成功就发送Response（200） 5) 如果推送不成功发送Response（500）保存数据线程 1）从阻塞队列中拉取日志数据 2）保存日志数据到服务器日志文件中 3）如果日志文件存在，就把日志文件中的数据存储到数据库中。 4) 数据库存储成功就删除服务器日志文件

python网页采集工具

10-10

我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。

2022网页域名采集软件_永久更新.zip

01-12

软件预览图：https://img-blog.csdnimg.cn/d8dd76ab6bbe438cb115273f4fa25689.png 多线程并发日采集几十万（去重后）业内领先。永久更新维护！

python全球域名采集_mitmproxy v0.18.2版本Python script示例

weixin_39578457的博客

12-17

160

记录请求日志到MongoDB# 记录请求日志到MongoDBimport pymongofrom datetime import datetimefrom mitmproxy import ctx# 连接MongoDBclient = pymongo.MongoClient()db = client['mitmproxy']collection = db['logs']def request(fl...

python---简单的子域名收集脚本

qi_SJQ_的博客

03-20

1136

# _*_ coding:utf-8 _*_ # 简单子域名收集脚本 import requests from bs4 import BeautifulSoup from urllib.parse import urlparse import sys def bing_search(site, pages): Subdomain = [] headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.

python url采集

weixin_33860147的博客

01-07

584

python利用百度做url采集pip install tableprintparamiko==2.0.8语法：python url_collection.py -h输出帮助信息python url_collection.py 要采集的信息 -p 页数 -t 进程数 -o 保存的文件名以及格式新建文件touch url_collection.py写入代码正式部分 #coding: utf-8imp...

数据采集高并发框架_大数据应用级联框架并发投资400万美元

06-25

170

同时， Cascading框架开发背后的企业面貌，已经在第一轮风险投资中获得了400万美元的投资。该公司由Cascading的作者Chris Wensel于2008年创立，是第一批成立初创公司的公司，旨在应对开发大数据应用程序的复杂性。在本包的其余部分（主要）集中于增强Hadoop服务时， Concurrent选择继续在Cascading上进行开发，Cascading是一种位于数据处理程...

高并发大数据采集分析系统框架设计

日西月东的专栏

11-21

9103

高并发大数据采集分析系统框架设计 C# Winform

python域名采集方法