Lang_URL深度采集工具

最新推荐文章于 2024-05-28 19:39:56 发布

浪子燕青啦啦啦

最新推荐文章于 2024-05-28 19:39:56 发布

阅读量8.5k

点赞数

分类专栏： Python 原创作品文章标签： url采集 url深度采集 url自动化采集 url无限采集 url规则采集

本文链接：https://blog.csdn.net/lzy98/article/details/83246254

版权

Lang_URL深度采集工具是一款强大的URL采集软件，支持自定义网址规则和无限采集。它可以进行友链爬行，动态规则检测，如网址包含特定字符串，标题和内容的过滤。用户可以通过配置文件设定详细的采集规则，如采集教育网址、大厂子域名等，还提供了文本去重功能。程序支持从初始网址导入或使用内置百度接口进行采集，并能自动去重和无限循环采集。

摘要由CSDN通过智能技术生成

title: Lang_URL深度采集工具
copyright: true
top: 0
date: 2018-09-02 16:15:12
tags: URL采集
categories: 个人作品
permalink:
password:
keywords:
description: Lang_URL深度采集程序是一款允许自定义网址规则的URL采集程序，在URL采集过程中网址进行动态规则检测，符合条件的网址才会允许记录保存在本地。比如网址中比如包含【www】，标题中必须出现【国际】，网页中不允许出现【安全狗】此类规则。并且还能通过友链进行无限采集与过滤。

优你扮小丑扮得太久了,演得太入戏,都忘记自己了。

Lang_url 自动化采集0.95 版本

常见URL采集器不足

市面上大部分的URL采集软件的原理都是这样：

找到多个搜索引擎的接口
输入关键词，对每个接口进行最大化的采集网址
去重复
自定义URL过滤黑名单

这也就意味着你需要尽可能多的接口包括但不限于Bing、Google、Sougou、Baidu等等等，然后传参对返回的页面提取网址基于黑名单过滤部分网址，最后迭代页数。

看上去的确没错，输入关键词获取相关的网址。但是在这个表面下却隐藏着几个缺点：

采集的网址都是被搜索引擎收录的，还有许多网址符合需求但是没办法采集到
采集URL每个人都可以用，关键词也差不多。导致最后采集的结果也差不多，这就意味着你好不容易找到一个漏洞站结果发现几千人利用完了…
没有更加细致的过滤，比如你想采集淘宝和阿里的子域名，一般会输入淘宝|阿里这样去采集，但是淘宝的网址中是带有taobao的，如果在采集的时候能自动加上网址验证就好了
采集数量最终有限，因为数据都是由搜索引擎提供，所以数量绝对是有限的。

解决不足的办法

为了解决优化这个问题造福广大群众，浪师傅花了2个小时完成了伪代码并且成功试运行…然后又前前后后花了8个多小时修改完一些bug…目前完成的是0.95版本，0.95版本提供如下功能：

能对传入的网址进行友链爬行，爬更多没有被收录的网址
能对采集的网址进行自定义规则检测（比如网址中必须要包含www）
能对采集的结果无限自动重复爬行，实现定义好规则后挂机无限采集

基本原理

其实实现起来并不难，难处在于程序中条件判断，一个不下心就蹦出一个BUG了…

无非是先获取过滤规则，然后判断传入方式获取网址，最后对网址进行规则判断即可。

功能介绍

能对原始网址进行友链爬行，获取更多的网址
能对传入的网址进行自定义规则过滤，去除不符合条件的网址
能对结果自动去重复
能自动无限采集
提供两个入口，可以直接导入采集好的网址也可以使用自带的baidu接口
细致的网址过滤规则
能对传入的网址直接进行规则过滤，不采集友链

使用方法

在使用前希望你可以细心阅读完使用方法介绍，目前版本为0.95版本。

当你打开目录后会发现 3 个文件，分别是：

浪子URL采集0.95.exe [主程序]
文本去重.exe [一个简单的文本去重复]
Config.exe [重点：配置文件]

来重点看下配置文件怎么写，它涉及到了网址过滤规则和是否进行无限采集，请求超时，线程数量。

自定义规则

打开当前目录下的Config.ini，安装需求进行配置

[User]
whoami = Langzi
[Config]

#条件设置 & 是与关系。| 是或关系。
#设置成 None 即不检测存在与否关系，直接保存到本地
#一个条件中可以存在多个&，也可以存在多个|，但不允许同时存在&和|
#具体用法看下面例子

title = 浪子&博客
#title = 浪子&博客，标题中必须存在【浪子】和【博客】两个词才允许保存到本地
#如果设置成None的话，不检测标题关系
#title

最低0.47元/天解锁文章

浪子燕青啦啦啦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
9
评论
Lang_URL深度采集工具

title: Lang_URL深度采集工具copyright: truetop: 0date: 2018-09-02 16:15:12tags: URL采集categories: 个人作品permalink:password:keywords:description: Lang_URL深度采集程序是一款允许自定义网址规则的URL采集程序，在URL采集过程中网址进行动态规则检测，...
复制链接

扫一扫