网络
文章平均质量分 50
forestLight
这个作者很懒,什么都没留下…
展开
-
网络爬虫 larbin学习网址收集
吴昆的博客 个人感觉比较好 对学习larbin很有帮助http://hi.baidu.com/hustwk/blog/category/larbin%D3%EB%C5%C0%B3%E6 青青子衿的博客 有文件的分析,可能版本不同,看看还是有价值的 http://blo转载 2011-09-23 10:50:13 · 1803 阅读 · 0 评论 -
Larbin:Fifo.h 的学习
Fifo.h 作用:建立一个非同步的标准队列的数据结构,实现队列的基本操作。(入队、出队、是否为空、队列长度) 实现: 基本实现:通过模板类实现;用T ** tab 存储实际元素,in,out做两个指针,size存储空间大小(不是队列大小原创 2011-10-09 19:48:44 · 1041 阅读 · 1 评论 -
数据挖掘的基本问题与基本方法
英语不太好,但是还是尽量用英语表达观点。重点地方,加中文注释。(一)数据挖掘基本问题:Data mining is just a research about how to mining the information from huge data. Four kinds原创 2011-10-10 11:25:49 · 960 阅读 · 0 评论 -
Larbin:Vector
Vector: 自己提供一个vector模板。 Vector (uint size):构造函数,初始化参数,并产生实际的空间。 ~Vector () :析构函数,删除每个节点的元素,删除表。 recycle ():循环,删除每个节点的元素,不删除表,将pos设置为0; addElement (T *elt):添加元素,数组动态扩展 operator原创 2011-10-21 10:49:40 · 532 阅读 · 0 评论 -
HTML标签详解
-- HTML标签详解HTML指令详解结构<html><head><title>标题<title></head><body>..........文件内容..........</body></html>1.文件标题<title>..........</title>2.文件更新--<meta>【1】10秒后自动更新一次<meta http-equ转载 2011-10-21 10:50:55 · 752 阅读 · 2 评论 -
Larbin:hashTable
hashTable:尽可能不爬两次同一url,判重。 size:尺寸。 table:char* 类型,实际存值的地方。 hashTable:建立hash表,并初始化。如果标志显示从文件中载入,则初始的hashTable从文件中载入,否则hashTable初值为0.hashTable的类型是char型。 ~hashTable:删除hash表。 sav原创 2011-10-19 22:17:53 · 819 阅读 · 0 评论 -
Larbin:checker
1.check: 功能:测试url是否已经在hashTable中,不在则加入相应的队列。 实现:如果不在,则hash数量加1。 如果是SpecificSearch,则判断文件是否是感兴趣的类型 是的话则加入URLsPriority这个同步队列中; 不是的话,则加入URLsDisk这个持久化的队原创 2011-10-21 10:48:10 · 661 阅读 · 0 评论 -
Larbin中涉及的HTML知识,以及强烈推荐的一个网站
:链接一个外部样式表。 样式表:用来进行网页风格设计的。比如,如果想让链接字未点击时是蓝色的,当鼠标移上去后字变成红色的且有下划线,这就是一种风格。 参数: href : 定义被链接文档的位置。 rel : 定义当前文档与被链接文档之间的关系。 type :原创 2011-10-21 18:16:15 · 1048 阅读 · 0 评论 -
Larbin:hashDup
hashDup: 功能:对于内容判重。hashTable是对URL判重。即文件内容相同的同一html,并不爬取两次,即便他们的url不同。 实现: hashDup :构造函数,建立hash表;包括建立空表和导入已建立的表。 ~hashDup : 析构函数,删除表。 testSet : 测试某个文件是否已经在hashTable中。原创 2011-10-27 16:49:19 · 709 阅读 · 0 评论 -
int的取值范围
以前习惯了看书,然后发现int的取值范围应该是-32768到32767,unsigned int的取值0到65535。 今天写larbin,突然发现他居然用了size_t存储64000000/8,写程序测试,发现居然能通过。 原来上面那个数据是16位机的范围,书过时了,知识也过时了。。。。勉励一下。 unsigned int是一个字节,在32位机上位0x0-----0x原创 2011-11-18 10:18:24 · 14315 阅读 · 0 评论 -
Larbin: Webserver
花了一个月,没有搞完Larbin,实在不应该。检讨一下。尽快搞完吧!Webserver: 在主程序中,以线程的方式启动,得到爬虫的运行状态。 startWebserver : 线程入口程序,完成socket的相关工作,并且监听80端口。 当有数据包到来的时候,调用manageAns进行响应。 readR原创 2011-11-02 11:26:53 · 1204 阅读 · 0 评论 -
写Spider中遇到的问题
1.静态成员变量定义问题: 在类中声明了静态成员变量,必须在相应的Cpp中定义。因为一般成员变量是在定义类的时候分配空间的,而静态成员变量在没有定义类之前,即可以使用;所以要找个地方分配空间给他。 2. 模板函数声明和定义(.h和.cpp)要放在一起(一个.h)问题 如果分开写,编译器会在链接的时候出错。这是因为在编译模板类的定义.obj时候,还不知道模板元素T的类型,所原创 2011-11-30 20:18:41 · 819 阅读 · 0 评论 -
DOMtree简介
很早就听过大名鼎鼎的DOMTree,但一直不知道这是何物。今天查了下wiki,这里对它做个小说明。算是读书笔记吧。 1.重点1 The Document Object Model (DOM) is across-platform andlanguage-independent convention for representing and intera原创 2011-12-01 22:14:17 · 2534 阅读 · 0 评论 -
Larbin:text.cc和text.h
LowerCase: 统一转为小写字母;StartWith:字符串b是否是以字符串a开头。startWithIgnoreCase:字符串b是否是以字符串a开头,忽略大小写。robotsMatch:字符串b是否被模式a禁止。robots.txt在服务器端的根目录下,其声原创 2011-10-17 14:45:23 · 999 阅读 · 1 评论 -
Larbin:String.cc和String.h
1.成员变量: chaine:保存字符串本身; size:当前字符串允许的长度(动态扩展) pos:当前字符串的实际长度2.成员函数: LarbinString():新建长度为默认长度的字符串,内容为空。 ~LarbinStr原创 2011-10-17 15:19:49 · 1272 阅读 · 1 评论 -
Larbin源码分析:Url.cc
Url.cc主要功能是对url进行分析,提取出相应的host、port、file,并对file进行规格化。这里还涉及了Cookies的机制,关于Cookies,我还不是很熟。所以要继续努力。 fileNormalize: 将从url中提取出来的文件名规格化:原创 2011-10-17 09:28:18 · 2538 阅读 · 0 评论 -
网络蜘蛛基本原理
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样转载 2011-09-24 09:59:33 · 1402 阅读 · 0 评论 -
网站与网络蜘蛛
网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网( http://www.taobao.com )就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络转载 2011-09-24 10:20:07 · 864 阅读 · 0 评论 -
某人发布的倒排索引
下载地址 http://libibase.googlecode.com/主要功能: 解析HTML 中文分词(反向最大匹配,用trie实现) 生成正向文档(我自己定义的格式,暂时是这样) 生成倒排索引(分块存储,bytecode压缩算法, 正文和快照转载 2011-09-29 10:56:32 · 566 阅读 · 0 评论 -
larbin出错处理
我的安装环境是:Ubuntu10.04 估计在其他的linux环境下也大体相同的。Larbin编译步骤: 编译前准备:(红色是要替换的为你自己的) 1.确认是否已经安装了build-essential程序包: : sudo a转载 2011-09-29 20:04:42 · 1950 阅读 · 0 评论 -
Bloom Filter概念和原理
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合转载 2011-10-01 15:05:17 · 726 阅读 · 0 评论 -
传说的Bloom Filter源代码
bloom.h#ifndef __BLOOM_H__#define __BLOOM_H__#include typedef unsigned int (*hashfunc_t)(const char *);typedef struct { size_t a转载 2011-10-01 15:21:52 · 2860 阅读 · 0 评论 -
larbin 编译成功后做什么
larbin编译成功后,有两个主要方向:一是通过相关资料读Larbin的源代码,最终的目的是自己能开发个简单的爬虫;第二个是分析得到的数据,做数据的分析与挖掘。当然,也有人想把这些数据提取出来后,怎么导入数据库。 所有源代码的读法,肯定要用到工具。在windo原创 2011-10-03 12:06:08 · 1795 阅读 · 1 评论 -
larbin源码分析(一) gloabl文件 Connexion结构
http://www.cppblog.com/jake1036/archive/2011/06/11/148492.html一 本系列主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始。 1 Connexion转载 2011-10-15 10:57:48 · 1034 阅读 · 0 评论 -
Larbin源码赏析:connexion.h 和connexion.cc
connexion在法语中是连线的意思,在global.h中定义了connexion结构体。而connexion.cc和connexio.h则主要是处理文件的写入的问题,主要利用的是write函数这个系统调用来完成的。他不是普通的write,因为他对里面出现的异常做了很好的处理。原创 2011-10-15 18:21:10 · 1163 阅读 · 0 评论 -
URL格式
URL的标准格式为: 协议://用户名@密码:主机名:端口号/目录/文件名.文件后缀?参数#标志 其中:用户名@密码和端口号(80)以及标志通常被省略。主机名由子域名.域名.顶级域名构成。 所以简化之后的格式是: 协议://主机名/目录/文原创 2011-10-15 18:54:15 · 918 阅读 · 0 评论 -
Cookies说明
由于Larbin中用到了Cookies的访问模式(开始看代码的时候觉得有点奇怪,后来才知道是用了cookies),这里查了下Cookies的资料。 Cookies是Web服务端与客户端(典型的是浏览器)交互时彼此传递的一部分内容,内容可以是任意的,但要在允许的长度范转载 2011-10-16 20:56:43 · 787 阅读 · 0 评论 -
robots.txt的格式
在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访转载 2011-10-17 10:07:47 · 773 阅读 · 0 评论 -
广播
1. 广播在传输层只能是UDP协议,显然是不能用Tcp协议的。2.广播在子网内进行;3.广播地址是:子网号+全1的主机号(如子网为192.168.1.0,则广播地址为192.168.1.255)原创 2012-01-04 13:05:31 · 624 阅读 · 0 评论