之前云计算已经把整个行业都搞得天翻地覆了。
对于任何一种资源,整合在一起一般都比单独存在有更多价值。这也所以自然界中,群居的动物那么多,而已都是很强大的。
对于互联网中的云,除了云计算外,应该还有更多。云计算是把计算的资源进行整合,这个整合不是把原先分散的集中,而已以一种集中的形式出现。给所有需要用到的用户提供一个集中地高效地计算系统(我的理解)。
而在互联网中太多资源可以做这类处理了。
比如瑞星的“云安全”,大家不用自己装杀毒软件了。只要一个客户端就可以搞定了,大家都说未来的客户端就只有一个浏览器。这话也是对于互联网资源整合的一种预测。
阅读全文>
发表于 @ 2008年07月18日 08:59:00|评论(loading...)|收藏
近来雅虎口碑分类信息试用后,也结合自己互联网的一点认识,觉得分类信息的未来还是很不错的。一.分类信息与中国互联网的未来 对于互联网的未来,不敢斗胆预测,但是个人比较认同威客witkey理论。从这个角度来说,互联网总是会越来越适合人的生活,总是会让生活越来越方便,这里的生活指得比广义,包括人的一切活动。就像各大互联网公司的slogan一样,比如“让天下没有难做的生意”,”生活好向导“等等。 分类信息是WEB 2.0 的衍生物,实质上就是互联网中的产生者要传递给自己目标群体的信息。分类信息以内容编排精细化、及时、空间无限等特质,在大众生活及商务活动中备受关注和喜欢。在互联网的不断发展中,人们互相传递信息的成本会越来越小,传递的效果也会越来越好。所以在分类信息在未来一定会发展得很好。阅读全文>
发表于 @ 2008年07月06日 10:22:00|评论(loading...)|收藏
deb http://ppa.launchpad.net/fta/ubuntu hardy main阅读全文>
发表于 @ 2008年05月27日 20:22:00|评论(loading...)|收藏
在这次四川救灾中经常可以看到和听到使用一种生命探测仪的东西来帮
助救援人员进行搜救。对于这种仪器大多数不了解,看了网上的一些资料也结合自己物理学专业的知识进行一下介绍。
目前所知的生命探测仪按原理结构可分为:雷达波探测器、视频探测器、音频探测器等,分别对比如下:
阅读全文>
发表于 @ 2008年05月21日 12:41:00|评论(loading...)|收藏
了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕,为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢?以我的个人观点来谈一下。一、总体功能 一个专业的网络搜索引擎至少包含3部分即抓取、处理和搜索。下面是它们的一般功能: * 抓取:抓取(蜘蛛、爬虫、crawler、spider等)程序负责爬行特定网络(也可能是整个网络),把网络上的页面和其它需要的文件下载到本地来。目前的难点是web2.0的普及导致的js分析和身份认证等问题。 * 处理:处理(分类、信息抽取、数据挖掘、classify、information extraction、data mining等)程序对抓回来的页面进行分析,比如,对网站的内容进行阅读全文>
发表于 @ 2007年11月05日 14:58:00|评论(loading...)|收藏
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 爬虫Crawler: Crawler的工作流程包括了整个nutch的所有步骤--injector,generator,fetcher,parseSegment, updateCrawleDB,Invert links, Index ,DeleteDuplicates, IndexMerger Crawler涉及的数据文件和格式和含义,和以上的各个步骤相关的文件分别被存放在物理设备上的以下几个文件夹里,crawldb,segments,indexes,linkdb,index五个文件夹里。 那么各个步骤和流程是怎么,各个文件夹里又是放着什么呢? 观察Crawler类可以知道它的流程./nutch crawl urls -dir ~/crawl -depth 4 -threads 10 -topN 2000 1、Injector 阅读全文>
发表于 @ 2007年10月14日 09:58:00|评论(loading...)|收藏
HadoopMapReduce--Map-Reduce具体实现详解Keyword: FileSplit:文件的子集--文件分割体简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅MapReduce--http://labs.google.com/papers/mapreduce.htmlMap 由于Map是并行地对输入的文件集进行操作,所以它的第一步(FileSplits) 就是把文件集分割成一些子集.如果一个单个的文件大到它已影响到查找效率时,它会被分割成一些小的分割体。要指出的是分割这个一步是不知道输入文件的内部逻辑结构的,比如,以行为逻辑分割的文本文件会被以任意的字节界限分割,所以这个具体分割要自己去指定也可以用hadoop已经定义的几个简单分割。然后每个文件分割体都会对应地有一个新的map任务。 当单个map任务开始时,它会对每个配置过的reduce任务开启一个新的输出书写器(writer).紧接着它(writer)阅读全文>
发表于 @ 2007年10月08日 15:27:00|评论(loading...)|收藏
并非在项目应用中原先的几个级别不够用了,通常的info,warn,debug ,error,fatal已经可以满足一般的应用,而且log4j也是不推荐用户自定义级别的。
由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录,面原先的几个级别在程序都已经按一般的需求使用了,所以就必要自己再定义出新的级别以满足我们的需求。
为log4j增加自定义级别其实是一件比较简单的事件。
org.apache.log4j包下的Level.java和Logger.java这两个类改一下,或你继承它们再写一个新类,写法的话你就照着其它的几个级别的写法就可以了。
几分钟搞定,然后再编译打包就可以了。
使用就和其它的级别一样了,只是新加的级别数的问题要你自己好好想想。
阅读全文>
发表于 @ 2007年09月26日 10:46:00|评论(loading...)|收藏
移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上b:与w相反e: 光标以单词向前移动 ne:光标向前移动n个单词 光标到单词的最后一个字母上ge:与e相反$:移动光标到行尾 n$:移动到第n行的行尾0(Num):移动光标到行首^:移动光标到行首第一个非空字符上去f:移动光标到当前行的字符a上,nf移动光标到当前行的第n个a字符上F:相反%:移动到与制匹配的括号上去(),{},[],等。nG:移动到第n行上 G:到最后一行阅读全文>
发表于 @ 2007年09月26日 09:47:00|评论(loading...)|收藏
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求
垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导入本地库,而垂直搜索引擎主要是以网页的形式展现给用户,通用搜索引擎主要是利用一个spider程序到网络上爬行,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有一个spider程序,但该程序只在一些特定的网络上爬行,并不会对每一个链接都感兴趣,相对来说,垂直搜索引擎的收录范围大大缩小了,但并不意味着内容的缩小,通用搜索引擎对一些动态脚本是不敏感的,例如***asp?id=*阅读全文>
发表于 @ 2007年08月23日 12:30:00|评论(loading...)|收藏