title: Lang_URL深度采集工具
copyright: true
top: 0
date: 2018-09-02 16:15:12
tags: URL采集
categories: 个人作品
permalink:
password:
keywords:
description: Lang_URL深度采集程序是一款允许自定义网址规则的URL采集程序,在URL采集过程中网址进行动态规则检测,符合条件的网址才会允许记录保存在本地。 比如网址中比如包含【www】,标题中必须出现【国际】,网页中不允许出现【安全狗】此类规则。并且还能通过友链进行无限采集与过滤。
优你扮小丑扮得太久了,演得太入戏,都忘记自己了。
Lang_url 自动化采集0.95 版本
常见URL采集器不足
市面上大部分的URL采集软件的原理都是这样:
- 找到多个搜索引擎的接口
- 输入关键词,对每个接口进行最大化的采集网址
- 去重复
- 自定义URL过滤黑名单
这也就意味着你需要尽可能多的接口包括但不限于Bing、Google、Sougou、Baidu等等等,然后传参对返回的页面提取网址基于黑名单过滤部分网址,最后迭代页数。
看上去的确没错,输入关键词获取相关的网址。但是在这个表面下却隐藏着几个缺点:
- 采集的网址都是被搜索引擎收录的,还有许多网址符合需求但是没办法采集到
- 采集URL每个人都可以用,关键词也差不多。导致最后采集的结果也差不多,这就意味着你好不容易找到一个漏洞站结果发现几千人利用完了…
- 没有更加细致的过滤,比如你想采集淘宝和阿里的子域名,一般会输入 淘宝|阿里 这样去采集,但是淘宝的网址中是带有taobao的,如果在采集的时候能自动加上网址验证就好了
- 采集数量最终有限,因为数据都是由搜索引擎提供,所以数量绝对是有限的。
解决不足的办法
为了解决优化这个问题造福广大群众,浪师傅花了2个小时完成了伪代码并且成功试运行…然后又前前后后花了8个多小时修改完一些bug…目前完成的是0.95版本,0.95版本提供如下功能:
- 能对传入的网址进行友链爬行,爬更多没有被收录的网址
- 能对采集的网址进行自定义规则检测(比如网址中必须要包含www)
- 能对采集的结果无限自动重复爬行,实现定义好规则后挂机无限采集
基本原理
其实实现起来并不难,难处在于程序中条件判断,一个不下心就蹦出一个BUG了…
无非是先获取过滤规则,然后判断传入方式获取网址,最后对网址进行规则判断即可。
功能介绍
- 能对原始网址进行友链爬行,获取更多的网址
- 能对传入的网址进行自定义规则过滤,去除不符合条件的网址
- 能对结果自动去重复
- 能自动无限采集
- 提供两个入口,可以直接导入采集好的网址也可以使用自带的baidu接口
- 细致的网址过滤规则
- 能对传入的网址直接进行规则过滤,不采集友链
使用方法
在使用前希望你可以细心阅读完使用方法介绍,目前版本为0.95版本。
当你打开目录后会发现 3 个文件,分别是:
- 浪子URL采集0.95.exe [主程序]
- 文本去重.exe [一个简单的文本去重复]
- Config.exe [重点:配置文件]
来重点看下配置文件怎么写,它涉及到了网址过滤规则和是否进行无限采集,请求超时,线程数量。
自定义规则
打开当前目录下的Config.ini,安装需求进行配置
[User]
whoami = Langzi
[Config]
#条件设置 & 是与关系。| 是或关系。
#设置成 None 即不检测存在与否关系,直接保存到本地
#一个条件中可以存在多个&,也可以存在多个|,但不允许同时存在&和|
#具体用法看下面例子
title = 浪子&博客
#title = 浪子&博客,标题中必须存在【浪子】和【博客】两个词才允许保存到本地
#如果设置成None的话,不检测标题关系
#title