- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 傻宝宝论坛:头文件和cpp文件
一个工程往往有头文件和cpp文件。那么什么是头文件,什么是include函数呢,我这里解释一下。 先看一段代码: #includeusing namespace std;void main(){ printA(); printB();}void printA(){ print('A');}void printB()
2011-10-28 10:52:13 1246
原创 Larbin:hashDup
hashDup: 功能:对于内容判重。hashTable是对URL判重。即文件内容相同的同一html,并不爬取两次,即便他们的url不同。 实现: hashDup :构造函数,建立hash表;包括建立空表和导入已建立的表。 ~hashDup : 析构函数,删除表。 testSet : 测试某个文件是否已经在hashTable中。
2011-10-27 16:49:19 690
原创 Larbin中涉及的HTML知识,以及强烈推荐的一个网站
:链接一个外部样式表。 样式表:用来进行网页风格设计的。比如,如果想让链接字未点击时是蓝色的,当鼠标移上去后字变成红色的且有下划线,这就是一种风格。 参数: href : 定义被链接文档的位置。 rel : 定义当前文档与被链接文档之间的关系。 type :
2011-10-21 18:16:15 1029
转载 HTML标签详解
-- HTML标签详解HTML指令详解结构<html><head><title>标题<title></head><body>..........文件内容..........</body></html>1.文件标题<title>..........</title>2.文件更新--<meta>【1】10秒后自动更新一次<meta http-equ
2011-10-21 10:50:55 736 2
原创 Larbin:Vector
Vector: 自己提供一个vector模板。 Vector (uint size):构造函数,初始化参数,并产生实际的空间。 ~Vector () :析构函数,删除每个节点的元素,删除表。 recycle ():循环,删除每个节点的元素,不删除表,将pos设置为0; addElement (T *elt):添加元素,数组动态扩展 operator
2011-10-21 10:49:40 517
原创 Larbin:checker
1.check: 功能:测试url是否已经在hashTable中,不在则加入相应的队列。 实现:如果不在,则hash数量加1。 如果是SpecificSearch,则判断文件是否是感兴趣的类型 是的话则加入URLsPriority这个同步队列中; 不是的话,则加入URLsDisk这个持久化的队
2011-10-21 10:48:10 645
转载 Larbin[1]hashtable checker 源代码分析
昨天看Larbin源代码,觉得Larbin根本没有用bloom filter算法,他只hash了一次。不过他的按位保存的那段代码还是蛮精辟的。今天上网,发现了这位仁兄的博客,他也觉得Larbin没有用bloom Filter算法,而且他的blog对Larbin的重要之处都做了解释。现在转载过来。 原文出处是:http://quweiprotoss.blog.163.com/blog/static
2011-10-20 09:50:10 1019
原创 Larbin:hashTable
hashTable:尽可能不爬两次同一url,判重。 size:尺寸。 table:char* 类型,实际存值的地方。 hashTable:建立hash表,并初始化。如果标志显示从文件中载入,则初始的hashTable从文件中载入,否则hashTable初值为0.hashTable的类型是char型。 ~hashTable:删除hash表。 sav
2011-10-19 22:17:53 805
原创 Larbin:String.cc和String.h
1.成员变量: chaine:保存字符串本身; size:当前字符串允许的长度(动态扩展) pos:当前字符串的实际长度2.成员函数: LarbinString():新建长度为默认长度的字符串,内容为空。 ~LarbinStr
2011-10-17 15:19:49 1252 1
原创 Larbin:text.cc和text.h
LowerCase: 统一转为小写字母;StartWith:字符串b是否是以字符串a开头。startWithIgnoreCase:字符串b是否是以字符串a开头,忽略大小写。robotsMatch:字符串b是否被模式a禁止。robots.txt在服务器端的根目录下,其声
2011-10-17 14:45:23 984 1
转载 robots.txt的格式
在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访
2011-10-17 10:07:47 758
原创 Larbin源码分析:Url.cc
Url.cc主要功能是对url进行分析,提取出相应的host、port、file,并对file进行规格化。这里还涉及了Cookies的机制,关于Cookies,我还不是很熟。所以要继续努力。 fileNormalize: 将从url中提取出来的文件名规格化:
2011-10-17 09:28:18 2443
原创 Larbin小技巧:将字符变为小写,如果本身是小写字母,则保持不变。
看Larbin写代码,总是能学到很多蛮有意思的东西。Larbin中区分大小写的比较是StartWith,不区分大小写的比较式StartWithIgnoCase。这里他用了一个统一的方法,将一个字符变为小写。由于A=65,a=97;所以 b[i] | 32 一定会是小写字母,不
2011-10-16 21:07:02 669
转载 Cookies说明
由于Larbin中用到了Cookies的访问模式(开始看代码的时候觉得有点奇怪,后来才知道是用了cookies),这里查了下Cookies的资料。 Cookies是Web服务端与客户端(典型的是浏览器)交互时彼此传递的一部分内容,内容可以是任意的,但要在允许的长度范
2011-10-16 20:56:43 768
原创 URL格式
URL的标准格式为: 协议://用户名@密码:主机名:端口号/目录/文件名.文件后缀?参数#标志 其中:用户名@密码和端口号(80)以及标志通常被省略。主机名由子域名.域名.顶级域名构成。 所以简化之后的格式是: 协议://主机名/目录/文
2011-10-15 18:54:15 904
原创 Larbin源码赏析:connexion.h 和connexion.cc
connexion在法语中是连线的意思,在global.h中定义了connexion结构体。而connexion.cc和connexio.h则主要是处理文件的写入的问题,主要利用的是write函数这个系统调用来完成的。他不是普通的write,因为他对里面出现的异常做了很好的处理。
2011-10-15 18:21:10 1129
转载 larbin源码分析(一) gloabl文件 Connexion结构
http://www.cppblog.com/jake1036/archive/2011/06/11/148492.html一 本系列主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始。 1 Connexion
2011-10-15 10:57:48 1014
转载 PageRank
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的网页排名技术,以Google公司创办人拉里•佩奇(Larry Page)之姓来命名。此技术通常和搜索引擎优化有关,Google用它来体现网页的相关性和重要性
2011-10-15 10:01:19 771
原创 腾讯面试:Linux下如何扫描目录
问题:在linux下,输出某个文件夹下的文件即其子目录,以及子目录下的文件和文件夹。代码如下:#include#include#include#include#include#include#include/*值得注意的是: struct
2011-10-13 09:52:15 743
原创 乔布斯斯坦福演讲
Jobs has gone, and story will continue. In this speech, he told me three stories about his life.The first one he tells me about connecting t
2011-10-10 17:31:30 1835
原创 数据挖掘的基本问题与基本方法
英语不太好,但是还是尽量用英语表达观点。重点地方,加中文注释。(一)数据挖掘基本问题:Data mining is just a research about how to mining the information from huge data. Four kinds
2011-10-10 11:25:49 942
转载 提取文件夹下的所有文件
问题:如何提取一个文件夹下的所有文件(的名字)解决:系统提供了DIR、dirent 变量, opendir: 函数原型:direct * opendir ( DIR* dir );作用:打开一个目录 cl
2011-10-09 20:53:25 643
原创 Larbin:Fifo.h 的学习
Fifo.h 作用:建立一个非同步的标准队列的数据结构,实现队列的基本操作。(入队、出队、是否为空、队列长度) 实现: 基本实现:通过模板类实现;用T ** tab 存储实际元素,in,out做两个指针,size存储空间大小(不是队列大小
2011-10-09 19:48:44 1016 1
原创 larbin 编译成功后做什么
larbin编译成功后,有两个主要方向:一是通过相关资料读Larbin的源代码,最终的目的是自己能开发个简单的爬虫;第二个是分析得到的数据,做数据的分析与挖掘。当然,也有人想把这些数据提取出来后,怎么导入数据库。 所有源代码的读法,肯定要用到工具。在windo
2011-10-03 12:06:08 1748 1
原创 腾讯的产品线
腾讯的产品很多,这里做一下总结。 A.网络类: 腾讯网: 门户网站,主要对手是新浪、搜狐 soso:搜索引擎,主要对手是百度、google、搜狗 Qzone、微博:博客类,主要对手是新浪、人人、百
2011-10-02 12:14:49 5006
转载 IBM的产品线
这是网上搜集的资料,整理一下。 IBM主要是面向企业级的客户,在个人市场和网络市场都被竞争对手赶出。PC卖给了联想,网络卖给了思科。 其主要的产品线为: 1.SWG(软件部) Lotus(莲花):和办公自动化相关的一个软件。
2011-10-01 21:35:12 946
转载 传说的Bloom Filter源代码
bloom.h#ifndef __BLOOM_H__#define __BLOOM_H__#include typedef unsigned int (*hashfunc_t)(const char *);typedef struct { size_t a
2011-10-01 15:21:52 2802
转载 Bloom Filter概念和原理
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合
2011-10-01 15:05:17 709
ffmpeg的VS2005工程文件
2011-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人