Lang_URL深度采集工具

Lang_URL深度采集工具是一款强大的URL采集软件,支持自定义网址规则和无限采集。它可以进行友链爬行,动态规则检测,如网址包含特定字符串,标题和内容的过滤。用户可以通过配置文件设定详细的采集规则,如采集教育网址、大厂子域名等,还提供了文本去重功能。程序支持从初始网址导入或使用内置百度接口进行采集,并能自动去重和无限循环采集。
摘要由CSDN通过智能技术生成

title: Lang_URL深度采集工具
copyright: true
top: 0
date: 2018-09-02 16:15:12
tags: URL采集
categories: 个人作品
permalink:
password:
keywords:
description: Lang_URL深度采集程序是一款允许自定义网址规则的URL采集程序,在URL采集过程中网址进行动态规则检测,符合条件的网址才会允许记录保存在本地。 比如网址中比如包含【www】,标题中必须出现【国际】,网页中不允许出现【安全狗】此类规则。并且还能通过友链进行无限采集与过滤。

优你扮小丑扮得太久了,演得太入戏,都忘记自己了。

Lang_url 自动化采集0.95 版本

常见URL采集器不足

市面上大部分的URL采集软件的原理都是这样:

  • 找到多个搜索引擎的接口
  • 输入关键词,对每个接口进行最大化的采集网址
  • 去重复
  • 自定义URL过滤黑名单

这也就意味着你需要尽可能多的接口包括但不限于Bing、Google、Sougou、Baidu等等等,然后传参对返回的页面提取网址基于黑名单过滤部分网址,最后迭代页数。

看上去的确没错,输入关键词获取相关的网址。但是在这个表面下却隐藏着几个缺点:

  • 采集的网址都是被搜索引擎收录的,还有许多网址符合需求但是没办法采集到
  • 采集URL每个人都可以用,关键词也差不多。导致最后采集的结果也差不多,这就意味着你好不容易找到一个漏洞站结果发现几千人利用完了…
  • 没有更加细致的过滤,比如你想采集淘宝和阿里的子域名,一般会输入 淘宝|阿里 这样去采集,但是淘宝的网址中是带有taobao的,如果在采集的时候能自动加上网址验证就好了
  • 采集数量最终有限,因为数据都是由搜索引擎提供,所以数量绝对是有限的。

解决不足的办法

为了解决优化这个问题造福广大群众,浪师傅花了2个小时完成了伪代码并且成功试运行…然后又前前后后花了8个多小时修改完一些bug…目前完成的是0.95版本,0.95版本提供如下功能:

  • 能对传入的网址进行友链爬行,爬更多没有被收录的网址
  • 能对采集的网址进行自定义规则检测(比如网址中必须要包含www)
  • 能对采集的结果无限自动重复爬行,实现定义好规则后挂机无限采集

基本原理

其实实现起来并不难,难处在于程序中条件判断,一个不下心就蹦出一个BUG了…

无非是先获取过滤规则,然后判断传入方式获取网址,最后对网址进行规则判断即可。

功能介绍

  • 能对原始网址进行友链爬行,获取更多的网址
  • 能对传入的网址进行自定义规则过滤,去除不符合条件的网址
  • 能对结果自动去重复
  • 能自动无限采集
  • 提供两个入口,可以直接导入采集好的网址也可以使用自带的baidu接口
  • 细致的网址过滤规则
  • 能对传入的网址直接进行规则过滤,不采集友链

使用方法

在使用前希望你可以细心阅读完使用方法介绍,目前版本为0.95版本。

当你打开目录后会发现 3 个文件,分别是:

  • 浪子URL采集0.95.exe [主程序]
  • 文本去重.exe [一个简单的文本去重复]
  • Config.exe [重点:配置文件]

来重点看下配置文件怎么写,它涉及到了网址过滤规则和是否进行无限采集,请求超时,线程数量。

自定义规则

打开当前目录下的Config.ini,安装需求进行配置

[User]
whoami = Langzi
[Config]

#条件设置 & 是与关系。| 是或关系。
#设置成 None 即不检测存在与否关系,直接保存到本地
#一个条件中可以存在多个&,也可以存在多个|,但不允许同时存在&和|
#具体用法看下面例子

title = 浪子&博客
#title = 浪子&博客,标题中必须存在【浪子】和【博客】两个词才允许保存到本地
#如果设置成None的话,不检测标题关系
#title 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪子燕青啦啦啦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值