C#正则网页分析网页爬虫/采集分析数据-912-源码+说明资料

转载地址: http://www.3q2008.com/soft/search.asp?keyword=912

适合  采集分析数据,关键字分析,网页爬虫蜘蛛等功能,
大体功能描述:

分析页面,根据对应要求规则提取数据,
可以根据该页面内对应链接,继续分析链接页面,依次递归.

1. 输入IP地址
2. 抓取输入IP地址页面的源代码,入库,也就是掉用第一个函数
3. 对源代码进行分析,提取此页上的非图片和视频的链接
4. 将提取的IP地址入库
5. 对这些链接启用多线程
6. 多线程完成三个函数功能
7. 第一个函数内容:调用NMAP对其扫描,查看是否开放6667端口,开放则定位含有IRC                     聊天室
8. 第二个函数:对所有的链接进行源代码的下载,入库
9. 第三个函数:对入库后的代码分析,查看是否有聊天室的关键字
10. 最后判断输出结果
针对 IP 查询      IP的内容
查询 IP
      页面信息 ,  源码,  是否开启6667 是否含有聊天室给关键字
主表   地址
子表 ,所属地址, 页面地址, 源码, 是否开启6667 是否含有关键字
环境:C#
聊天室扫描模块的关键是使用nmap-sS-p 6667;

要求:输入一个IP地址,用c#调用NMAP扫描,用正则表达式进行匹配,查看是否开放6667端口,如果是OPEN就显示含有CS聊天室;
然后对给出的IP地址抓取源代码,用正则表达式找出非图片和视频的链接,将这些链接和最开始的那个链接一起入库到IP列,然后调用线程并行下载,线程个数为10,为了不重复下载,在TIME列为0的时候下载,当为1的时候不下载,然后将源代码入库,对其进行关键字分析,是否包含聊天室关键字,最后给出探测结果,*【图形界面】
*调用NMAP使用 nmap -sS -p 6667,采用C#调用cmd,传递这个参数,和下面的方法类似:

符合大部分网页采集爬虫特性:


采用特征比对的方法对收集到的网站网页进行检索,如果从中发现具有已知聊天室特征的网站网页,认为发现了网络聊天室。
1.1.1 网页分析
在这里进行分析的网页是指html、asp、jsp等类型网页,它由标题、文本和tag串三部分构成。本文对B/S结构聊天室探测时,只针对文本信息进行识别,因此不考虑其中的视频、音频信息等等数据。
1.标题:即Web页面源代码中用<TITLE>和</TITLE>标记的文字.在实际浏览的时候它会出现在浏览器界面最上方的标题栏中。标题中的内容与网页的主题的关系非常密切,起着概括全篇的重要作用。如果标题中出现了与某个主题相关的关键词。则其主要内容与该主题一般也是相关的,所以标题是很重要的。
2.页面标记:起控制作用的标识符,属于HTML语法的一部分,成为Tag ,他们的特点是由“<”和“>”以及它们中间的字串组成如<TITLE>、<BR>等等。对于普通的文本文档,识别标题、小标题、段首句等结构信息是一项十分困难的工作,然而在网页文件中,由于有控制标识符表明这些结构信息,识别它们就变得十分的简单,在识别聊天室网页时可以参考这些信息。
3.文本:就是浏览网页时真正看到的文字信息.这些文字信息是网页的真正内容。
1.1.2 基于B/S结构聊天室特征分析
经过收集统计整理分析北方时空、第九元素、佛教在线等十四个公共的大型聊天室网站的特征关键字,B/S结构的聊天室具有下述特点。统计情况如表5.1所示。
1.所有聊天室均具有“登陆区”
“登陆区”指登陆聊天室时的用户登陆区,典型的“登陆区”代码,例如“北方时空”的登陆区网页源码如图5.5所示。

启动后,点管理, 可以直接点多线程操作! 系统会根据页面分析的链接数进行同时分析采集

表数量3

Detail 
字段名称数据自增主键允许为空默认值
项目
页面地址
页面源码
含有关键字
程序判定
表:1

项目 
字段名称数据自增主键允许为空默认值
项目地址
表:2

vI 
字段名称数据自增主键允许为空默认值
项目
项目地址
页面地址
页面源码400)
含有关键字
程序判定
表:3


转载地址: http://www.3q2008.com/soft/search.asp?keyword=912

  • 15
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值