自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 傻宝宝论坛:头文件和cpp文件

一个工程往往有头文件和cpp文件。那么什么是头文件,什么是include函数呢,我这里解释一下。     先看一段代码:     #includeusing namespace std;void main(){ printA(); printB();}void printA(){ print('A');}void printB()

2011-10-28 10:52:13 1246

原创 Larbin:hashDup

hashDup:   功能:对于内容判重。hashTable是对URL判重。即文件内容相同的同一html,并不爬取两次,即便他们的url不同。   实现:       hashDup  :构造函数,建立hash表;包括建立空表和导入已建立的表。       ~hashDup : 析构函数,删除表。       testSet  : 测试某个文件是否已经在hashTable中。

2011-10-27 16:49:19 690

原创 Larbin中涉及的HTML知识,以及强烈推荐的一个网站

:链接一个外部样式表。       样式表:用来进行网页风格设计的。比如,如果想让链接字未点击时是蓝色的,当鼠标移上去后字变成红色的且有下划线,这就是一种风格。       参数:              href    : 定义被链接文档的位置。              rel     : 定义当前文档与被链接文档之间的关系。              type    :

2011-10-21 18:16:15 1029

转载 HTML标签详解

-- HTML标签详解HTML指令详解结构<html><head><title>标题<title></head><body>..........文件内容..........</body></html>1.文件标题<title>..........</title>2.文件更新--<meta>【1】10秒后自动更新一次<meta http-equ

2011-10-21 10:50:55 736 2

原创 Larbin:Vector

Vector:   自己提供一个vector模板。   Vector (uint size):构造函数,初始化参数,并产生实际的空间。   ~Vector () :析构函数,删除每个节点的元素,删除表。   recycle ():循环,删除每个节点的元素,不删除表,将pos设置为0;   addElement (T *elt):添加元素,数组动态扩展   operator

2011-10-21 10:49:40 517

原创 Larbin:checker

1.check:  功能:测试url是否已经在hashTable中,不在则加入相应的队列。  实现:如果不在,则hash数量加1。            如果是SpecificSearch,则判断文件是否是感兴趣的类型                是的话则加入URLsPriority这个同步队列中;                不是的话,则加入URLsDisk这个持久化的队

2011-10-21 10:48:10 645

转载 Larbin[1]hashtable checker 源代码分析

昨天看Larbin源代码,觉得Larbin根本没有用bloom filter算法,他只hash了一次。不过他的按位保存的那段代码还是蛮精辟的。今天上网,发现了这位仁兄的博客,他也觉得Larbin没有用bloom Filter算法,而且他的blog对Larbin的重要之处都做了解释。现在转载过来。  原文出处是:http://quweiprotoss.blog.163.com/blog/static

2011-10-20 09:50:10 1019

原创 Larbin:hashTable

hashTable:尽可能不爬两次同一url,判重。    size:尺寸。    table:char* 类型,实际存值的地方。    hashTable:建立hash表,并初始化。如果标志显示从文件中载入,则初始的hashTable从文件中载入,否则hashTable初值为0.hashTable的类型是char型。    ~hashTable:删除hash表。    sav

2011-10-19 22:17:53 805

原创 Larbin:String.cc和String.h

1.成员变量:    chaine:保存字符串本身;    size:当前字符串允许的长度(动态扩展)    pos:当前字符串的实际长度2.成员函数:    LarbinString():新建长度为默认长度的字符串,内容为空。    ~LarbinStr

2011-10-17 15:19:49 1252 1

原创 Larbin:text.cc和text.h

LowerCase: 统一转为小写字母;StartWith:字符串b是否是以字符串a开头。startWithIgnoreCase:字符串b是否是以字符串a开头,忽略大小写。robotsMatch:字符串b是否被模式a禁止。robots.txt在服务器端的根目录下,其声

2011-10-17 14:45:23 984 1

转载 robots.txt的格式

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访

2011-10-17 10:07:47 758

原创 Larbin源码分析:Url.cc

Url.cc主要功能是对url进行分析,提取出相应的host、port、file,并对file进行规格化。这里还涉及了Cookies的机制,关于Cookies,我还不是很熟。所以要继续努力。  fileNormalize:    将从url中提取出来的文件名规格化:

2011-10-17 09:28:18 2443

原创 Larbin小技巧:将字符变为小写,如果本身是小写字母,则保持不变。

看Larbin写代码,总是能学到很多蛮有意思的东西。Larbin中区分大小写的比较是StartWith,不区分大小写的比较式StartWithIgnoCase。这里他用了一个统一的方法,将一个字符变为小写。由于A=65,a=97;所以 b[i]  |  32 一定会是小写字母,不

2011-10-16 21:07:02 669

转载 Cookies说明

由于Larbin中用到了Cookies的访问模式(开始看代码的时候觉得有点奇怪,后来才知道是用了cookies),这里查了下Cookies的资料。      Cookies是Web服务端与客户端(典型的是浏览器)交互时彼此传递的一部分内容,内容可以是任意的,但要在允许的长度范

2011-10-16 20:56:43 768

原创 URL格式

URL的标准格式为:    协议://用户名@密码:主机名:端口号/目录/文件名.文件后缀?参数#标志    其中:用户名@密码和端口号(80)以及标志通常被省略。主机名由子域名.域名.顶级域名构成。    所以简化之后的格式是:    协议://主机名/目录/文

2011-10-15 18:54:15 904

原创 Larbin源码赏析:connexion.h 和connexion.cc

connexion在法语中是连线的意思,在global.h中定义了connexion结构体。而connexion.cc和connexio.h则主要是处理文件的写入的问题,主要利用的是write函数这个系统调用来完成的。他不是普通的write,因为他对里面出现的异常做了很好的处理。

2011-10-15 18:21:10 1129

转载 larbin源码分析(一) gloabl文件 Connexion结构

http://www.cppblog.com/jake1036/archive/2011/06/11/148492.html一 本系列主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始。     1   Connexion

2011-10-15 10:57:48 1014

转载 PageRank

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的网页排名技术,以Google公司创办人拉里•佩奇(Larry Page)之姓来命名。此技术通常和搜索引擎优化有关,Google用它来体现网页的相关性和重要性

2011-10-15 10:01:19 771

原创 腾讯面试:Linux下如何扫描目录

问题:在linux下,输出某个文件夹下的文件即其子目录,以及子目录下的文件和文件夹。代码如下:#include#include#include#include#include#include#include/*值得注意的是: struct

2011-10-13 09:52:15 743

原创 乔布斯斯坦福演讲

Jobs has gone, and story will continue. In this speech, he told me three stories about his life.The first one he tells me about connecting t

2011-10-10 17:31:30 1835

原创 数据挖掘的基本问题与基本方法

英语不太好,但是还是尽量用英语表达观点。重点地方,加中文注释。(一)数据挖掘基本问题:Data mining is just a research about how to mining the information from huge data. Four kinds

2011-10-10 11:25:49 942

转载 提取文件夹下的所有文件

问题:如何提取一个文件夹下的所有文件(的名字)解决:系统提供了DIR、dirent 变量,           opendir: 函数原型:direct   *   opendir   (   DIR*   dir   );作用:打开一个目录           cl

2011-10-09 20:53:25 643

原创 Larbin:Fifo.h 的学习

Fifo.h    作用:建立一个非同步的标准队列的数据结构,实现队列的基本操作。(入队、出队、是否为空、队列长度)    实现:          基本实现:通过模板类实现;用T ** tab 存储实际元素,in,out做两个指针,size存储空间大小(不是队列大小

2011-10-09 19:48:44 1016 1

原创 larbin 编译成功后做什么

larbin编译成功后,有两个主要方向:一是通过相关资料读Larbin的源代码,最终的目的是自己能开发个简单的爬虫;第二个是分析得到的数据,做数据的分析与挖掘。当然,也有人想把这些数据提取出来后,怎么导入数据库。         所有源代码的读法,肯定要用到工具。在windo

2011-10-03 12:06:08 1748 1

原创 腾讯的产品线

腾讯的产品很多,这里做一下总结。       A.网络类:          腾讯网:  门户网站,主要对手是新浪、搜狐          soso:搜索引擎,主要对手是百度、google、搜狗          Qzone、微博:博客类,主要对手是新浪、人人、百

2011-10-02 12:14:49 5006

转载 IBM的产品线

这是网上搜集的资料,整理一下。     IBM主要是面向企业级的客户,在个人市场和网络市场都被竞争对手赶出。PC卖给了联想,网络卖给了思科。      其主要的产品线为:     1.SWG(软件部)        Lotus(莲花):和办公自动化相关的一个软件。

2011-10-01 21:35:12 946

转载 传说的Bloom Filter源代码

bloom.h#ifndef __BLOOM_H__#define __BLOOM_H__#include typedef unsigned int (*hashfunc_t)(const char *);typedef struct { size_t a

2011-10-01 15:21:52 2802

转载 Bloom Filter概念和原理

Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合

2011-10-01 15:05:17 709

ffmpeg的VS2005工程文件

学习ffplay的朋友都感觉在linux下不是很方便调试,这里是VS2005的编译通过的工程。资源分为0分,需要的同学可以下载。 [email protected]

2011-07-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除