- 博客(13)
- 收藏
- 关注
转载 搜索引擎研究新技术zz
在网上找到的关于网络爬虫的一篇文章,其中提到了分布式网络爬虫,指出了其面临的问题并给出了解决方案,很有参考价值,所以转载过来.搜索引擎研究新技术(转载自CSDN) 搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。 早期的搜索引擎将互联网中的资源服务器做为搜索的目标,并将收集的数据按概念进行分类, 用
2007-06-24 14:30:00 1554
原创 Toolkits for IR/NLP/ML
Original URL: http://zeddius.spaces.live.com/blog/cns!2916695FA7B7532B!525.entryA great artice! 以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statementI. Information Retrieval 1
2007-06-24 11:45:00 6702
原创 在linux下听音乐
上午在linux上弄了半天,有点烦了,突然想听听音乐,结果发现 linux里面根本就没有媒体播放的软件. 上网找了个mplayer. 解压 ./configure gmake 编译搞定.运行./mplayer,发现有几个错误,说是文件创建不成功.我一看,都是在root目录下的.难道是权限不够? 转换到超级用户su root ,然后重新配置,编译,执行
2007-06-24 10:44:00 4130 3
转载 google创始人在stanford发表的论文
在网上找到的,转载过来,讲的是google的设计和体系结构.The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page {sergey, page}@cs.stanford.edu Computer Science Department, Stanford Univer
2007-06-24 10:29:00 7114
原创 分布式网络爬虫浅见
昨天研究过larbin之后,晚上回去想了想,larbin是单机的爬取,速度有限,像baidu,google这样的公司肯定不是用一个爬虫去爬,不然 那么大的数据量,根本就处理不了.如果能将其改成一个分布式网络爬虫,同时用不同的机器去爬不同的站点,处理不同的信息,这样就快多了,处理量也能大大的 提高. 网上关于分布式爬虫的资料比较少,就我自己的思考,设计一个分布式网络爬虫,应该有这样一些
2007-06-24 09:01:00 5900 2
原创 larbin2.6.2 源代码解读(2)
因为估计我们的处理函数都会放在loaded(html *page)这个函数中去,现在我们来看看在useroutput.cc这个文件中是怎么实现loaded(html *page)这个方法的. 实际上,useroutput.cc文件中只是根据配置文件中定义的输出方法决定编译哪个文件,现在来看看我们一般会选择的镜像的输出对应的文件mirroroutput.cc文件,其中的loaded(h
2007-06-23 14:32:00 1898
原创 larbin2.6.2 源代码解读(1)
正如上面的文章所说的,解读larbin的源代码是为了对下载下来的信息进行处理.为了达到这个目的,需要阅读其中的部分代码. 首先,最重要的,是larbin文档中,关于customnize的描述: In order to customize larbin according to your needs, you have to create a userouput file (see src/i
2007-06-23 14:22:00 2073
原创 larbin 2.6.2 配置方法
今天在linux下工作了一上午,终于把网络爬虫larbin配好了. 开始下了一个larbin1.2.2,用了半天不好使,感觉这个程序的结构和之前接触的也不太一样.又去google搜了下,下了个2.6.2的版本.改了之后就好用了. 配置的具体方法为: 1.先cd到larbin所在的文件目录下. 2.将optional.h的对应项修改好,特别是output这一项,原来默
2007-06-23 13:53:00 2050 1
原创 神经网络算法,蚁群算法,遗传算法初悟
在研究自然语言处理时,经常要涉及到人工智能的知识.本来NLP就是人工智能的一个重要方面和分支. 在研究的过程中,经常会用到一些高级的算法.如神经网络算法,蚁群算法,遗传算法,隐马尔科夫模型的Veterbi算法,前向后向算法等,这几天粗略地看了一下这些算法.大体上了解了这些算法的基本思路.从这些算法中,不得不感慨人类的智慧和大自然的巧妙.包括神经网络算法,遗传算法,蚁群
2007-06-22 19:47:00 4854 1
转载 如何提高你的工作效率?
你是不是每天都很忙,却老是忙而无功?是不是感觉付出很多,得到的却只是老板的责骂?是不是没有一刻空闲,到总结时却说不出所完成的成果? 如果你已身心疲惫,但是一无所获,那么,你可能不是工作不努力,而是没有掌握提高工作效率的正确方法,在无意中浪费了你的生命。 下面的建议不是万能的“灵丹妙药”,但可以给你提高自己的工作效率提供一些有益的参考:1、把所有工作划分成"事务型"和"思考型"两类,
2007-06-17 14:28:00 759
原创 Problems of Current NLP Approaches读后感
前不久,刘挺老师给我们发了这篇台湾苏老师的slice,要我们好好研读,这篇是我读后的陋见,见笑了. 苏克毅老师的这篇ppt主要讲述的是NLP当前存在的问题和未来的发展方向。 其实,作为一个NLP的入门者,我对NLP当前的现状了解的都很少,但我仍可以从这些slice中看出苏老师对NLP当前存在问题的准确把握和精妙的见解。 下面是看完他的slice之后我的一
2007-06-16 22:19:00 937
原创 SVM算法笔记一
SVM里面涉及的数学要求太高了.我一时半会也没看懂.看了看一些概念性的东西.做的笔记贴上来. SVM算法学习笔记: SVM算法是用于机器学习和机器训练的一个有效算法。Support Vector Machine 第一章:学习方法1.1 监督学习学到的概念有:监督学习:当样例是由输入/输出对给出时,成为监督学习. 有关输入输出关系的样例称为训练数据.
2007-06-16 17:43:00 7146 1
转载 LIBSVM简介
LIBSVM简介 支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的,自己编程实现该算法难度就更大了。但是现在的网络资源非常发达,而且国际上的科学研究者把他们的研究成果已经放在网络上,免费提供给用于研究目的,这样方便大多数的研究者,不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多,如LIBSVM、mySVM、SVMLight等,这些
2007-06-10 10:16:00 2843
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人