- 博客(8)
- 收藏
- 关注
转载 互联网公司面试
书籍:一、《算法导论》 这本是大部头,很多人都看不完。我本人也并没有看完,它跟了我这么多年,完全是属于常看常新的牛书。每一次看,都发现会有新的收获。比如,以前并不知道求K位数或者中位数有平均为O(n)复杂度的算法。看到了别的地方的参考资料,才知道,原来《算导》上专门有一小节讲这个内容。我基本上是本科比较集中的看了一遍,研一的时候又集中的看了一遍,才算是粗略的看完。但是其实,
2015-04-13 14:34:30 637
原创 最大熵开源——openNLP MaxEnt
opennlp.maxent package是一个比较成熟的Java package,用来训练和使用最大熵模型。本文描述最大熵和使用opennlp.maxent package的一些相关细节。更新内容:http://sourceforge.net/projects/maxent/(Sourceforge page for Maxent )Download:http://sourcefo
2015-04-10 09:45:01 3350
转载 httpclient自动获取页面编码,解决网页抓取乱码问题
httpclient自动获取页面编码设置进行字符编码,使httpclient适用所有网页抓取不乱码 /** * 获取页面html内容 * @param method * @param methodType * @return String * @thr
2015-04-08 16:26:31 4422
原创 开源的高性能Java集合:GNU Trove介绍
看过openNLP源码的人或许会注意到代码里经常引入import gnu.trove.*; 好奇之余,进行了资料搜集和总结。Trove 是一个快速、轻量级 Collection 类的集合。Trove 提供所有标准 java.util Collections 类的更快的版本以及能够直接在原语(primitive)(例如包含 int 键或值的 Map 等)上操作的 Collections 类的版本
2015-04-08 11:26:21 5300
转载 机器学习开源工具及licence
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statement。我通过浏览各开源工具网站,对其licence agreement进行了一下了解,在这里简单贴上其遵循的licence,希望有用。如果实际商用或者其他用途,还须仔细到个网站查询或联系developers。由于版本的升级,相应的licence也会有一定的改动,需要注意。如
2015-04-07 18:01:53 4055
原创 几款开源分词地址
介绍几款常用也是比较热门的开源分词系统:几款开源分词软件:http://www.jb51.net/article/31926.htmhttpcws分词系统:http://blog.s135.com/httpcws_v100/ICTCLAS 汉语分词系统:http://ictclas.org/index.htmlSCWS分词软件:http://www.xunsearch.com/sc
2015-04-03 16:25:25 1003
原创 文本分类常用算法比较
本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(Decision Trees)优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的
2015-04-03 16:10:48 16492
原创 java中List的三个实现类
List用于存放多个元素,可以维护元素次序,且允许重复。它一共有三个实现类:ArrayList、Vector、LinkedList。它们的区别如下:1、ArrayList 内部通过数组实现,允许快速随机访问元素,如查找和遍历,但不适合插入和删除,因为需要进行复制、移动,代价比较高; 元素之间不能有间隔,如果空间不够,需要增加存储能力,进行数组复制,默认扩展50%+1。2、V
2015-04-01 17:56:46 816
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人