- 博客(15)
- 收藏
- 关注
转载 开源 Java 中文分词器 Ansj 作者孙健专访
转自:http://www.iteye.com/magazines/102Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Gi
2013-12-31 09:50:09 818
转载 短文本合并重复(去重)的简单有效做法
http://www.cnblogs.com/zhengyun_ustc/archive/2012/06/12/sim.html不大合适的SimHash前些日子看了Charikar SimHash的介绍《Simhash算法原理和网页查重应用》,核心思想是用一个f位的hash值来表示文件的特征值,然后使用hash值之间的Hamming距离来衡量相似性。输入的是一个文档
2013-12-28 14:23:11 875
转载 simhash(局部敏感哈希)的原理及应用
imhash的背景 simhash广泛的用于搜索领域中,也许在面试时你会经常遇到这样的问题,如果对抓取的网页进行排重,如何对搜索结果进行排重等等。随着信息膨胀时代的来临,算法也在不断的精进,相似算法同样在不断的发展,接触过lucene的同学想必都会了解相似夹角的概念,那就是一种相似算法,通过计算两个向量的余弦值来判断两个向量的相似性,但这种方式需要两两进行计算向量的余弦夹角,计算量比较大,不能
2013-12-28 13:14:06 789
转载 相似文档查找算法之 simHash 简介及其 java 实现
传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提
2013-12-28 13:12:37 1247
转载 Maven实战: Eclipse构建Maven项目
转自: http://tangyanbo.iteye.com/blog/15037821. 安装m2eclipse插件 要用Eclipse构建Maven项目,我们需要先安装meeclipse插件 点击eclipse菜单栏Help->Eclipse Marketplace搜索到插件Maven Integration for Eclipse 并点击安装即
2013-12-27 18:31:02 426
转载 simHash 简介以及java实现
传统的hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了
2013-12-27 18:04:28 658
转载 Partitioner
Partitioner这个类是用来决定map输出时,什么样的key输出到同一个reduce节点(调用setPartitionerClass方法),但不保证到同一个reduce节点的key会在同一个group(即不一定在reduce的同一个iter迭代里)。注:map端当输出buffer到达内存的一定比例时,将内存中的数据写到磁盘,此时会按key进行排序,然后才写入磁盘。由于Partitio
2013-12-18 10:18:08 534
转载 eclipse配置maven
eclipse配置maven下面跟大家分享的是eclipse配置maven的方法。方法/步骤安装maven之前,要先安装jdk及配置JAVA_HOME环境变量。JDK1.4以上。下载maven3,最新版本是Maven3.0.3,下载地址:http://maven.apache.org/download.
2013-12-16 17:25:19 429
转载 新手开淘宝网店怎样一个月安全达到一钻
新手开淘宝网店怎样一个月安全达到一钻也不多说了,说下新手们都关心的问题,就是怎么让店有流量,流量怎么转化为成交?其实说实话为了把店流量搞上去,我是啥办法都使用过的,论坛里面说的那些有用的和没用的,偶都试过。顺便也提一下一些关键。步骤/方法开通旺铺,网店是要装修一下的,就像实体一样门面是很重要的。同样一件东西,如
2013-12-16 12:42:12 1032
转载 CSS 颜色代码
颜色代码:1 白色 #FFFFFF 2 红色 #FF0000 3 绿色 #00FF00 4 蓝色 #0000FF5 牡丹红 #FF00FF 6 青色 #00FFFF 7 黄色 #FFFF00 8 黑色 #0000009 海蓝 #70DB93 10 巧克力色 #5C3317 11 蓝紫色 #9F5F9F 12 黄铜色 #B5A64213 亮金色 #D9D919 14 棕色 #A67D
2013-12-12 16:06:12 1214
转载 Spring AOP
此前对于AOP的使用仅限于声明式事务,除此之外在实际开发中也没有遇到过与之相关的问题。最近项目中遇到了以下几点需求,仔细思考之后,觉得采用AOP 来解决。一方面是为了以更加灵活的方式来解决问题,另一方面是借此机会深入学习Spring AOP相关的内容。本文是权当本人的自己AOP学习笔记,以下需求不用AOP肯定也能解决,至于是否牵强附会,仁者见仁智者见智。对部分函数的调用进行日志记录,用于观
2013-12-10 17:47:31 428
转载 HashMap的初始容量(initialCapacity)和装载因子(loadFactor)
按HashMap源码里的那种重构方法,如果reHash过多,显然会影响性能。所以为了防止过多的reHash,我们需要自己配置HashMap的装载因子loadFactor和初始的table容量capacity的大小(可以在构造函数里配或者调用方法配)。很容易理解,如果我们已经知道我们使用的HashMap一般情况的存储在1W对以上,你给它一个默认的16的初始的table容量,默认reHas
2013-12-10 17:44:15 5266
转载 & &&
&是位与,&一般用于取一个字节(八位)的位数,&& 是且,一般用于判断语句的双重条件,这个你应该懂吧,就说&的用法;如:a=10101000 如果我想取a的低四位,则可 10101000 & 00001111 00001000 这样我就取出了a的低四位1000两个意义差不多,只是用的地方不同!
2013-12-07 10:51:40 433
转载 ConcurrentHashMap
ConcurrentHashMap是Java 5中支持高并发、高吞吐量的线程安全HashMap实现。 实现原理 锁分离 (Lock Stripping) ConcurrentHashMap允许多个修改操作并发进行,其关键在于使用了锁分离技术。它使用了多个锁来控制对hash表的不同部分进行的修改。ConcurrentHashMap内部使用段(Segment)来表示这些
2013-12-05 17:32:15 402
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人