自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

call-me-snow的专栏

慢生活 爱生活

  • 博客(15)
  • 收藏
  • 关注

转载 开源 Java 中文分词器 Ansj 作者孙健专访

转自:http://www.iteye.com/magazines/102Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Gi

2013-12-31 09:50:09 818

转载 短文本合并重复(去重)的简单有效做法

http://www.cnblogs.com/zhengyun_ustc/archive/2012/06/12/sim.html不大合适的SimHash前些日子看了Charikar SimHash的介绍《Simhash算法原理和网页查重应用》,核心思想是用一个f位的hash值来表示文件的特征值,然后使用hash值之间的Hamming距离来衡量相似性。输入的是一个文档

2013-12-28 14:23:11 875

转载 simhash(局部敏感哈希)的原理及应用

imhash的背景 simhash广泛的用于搜索领域中,也许在面试时你会经常遇到这样的问题,如果对抓取的网页进行排重,如何对搜索结果进行排重等等。随着信息膨胀时代的来临,算法也在不断的精进,相似算法同样在不断的发展,接触过lucene的同学想必都会了解相似夹角的概念,那就是一种相似算法,通过计算两个向量的余弦值来判断两个向量的相似性,但这种方式需要两两进行计算向量的余弦夹角,计算量比较大,不能

2013-12-28 13:14:06 789

转载 相似文档查找算法之 simHash 简介及其 java 实现

传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提

2013-12-28 13:12:37 1247

转载 Maven实战: Eclipse构建Maven项目

转自: http://tangyanbo.iteye.com/blog/15037821. 安装m2eclipse插件    要用Eclipse构建Maven项目,我们需要先安装meeclipse插件    点击eclipse菜单栏Help->Eclipse Marketplace搜索到插件Maven Integration for Eclipse 并点击安装即

2013-12-27 18:31:02 426

转载 simHash 简介以及java实现

传统的hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了

2013-12-27 18:04:28 658

转载 Partitioner

Partitioner这个类是用来决定map输出时,什么样的key输出到同一个reduce节点(调用setPartitionerClass方法),但不保证到同一个reduce节点的key会在同一个group(即不一定在reduce的同一个iter迭代里)。注:map端当输出buffer到达内存的一定比例时,将内存中的数据写到磁盘,此时会按key进行排序,然后才写入磁盘。由于Partitio

2013-12-18 10:18:08 534

转载 eclipse配置maven

eclipse配置maven下面跟大家分享的是eclipse配置maven的方法。方法/步骤安装maven之前,要先安装jdk及配置JAVA_HOME环境变量。JDK1.4以上。下载maven3,最新版本是Maven3.0.3,下载地址:http://maven.apache.org/download.

2013-12-16 17:25:19 429

转载 新手开淘宝网店怎样一个月安全达到一钻

新手开淘宝网店怎样一个月安全达到一钻也不多说了,说下新手们都关心的问题,就是怎么让店有流量,流量怎么转化为成交?其实说实话为了把店流量搞上去,我是啥办法都使用过的,论坛里面说的那些有用的和没用的,偶都试过。顺便也提一下一些关键。步骤/方法开通旺铺,网店是要装修一下的,就像实体一样门面是很重要的。同样一件东西,如

2013-12-16 12:42:12 1032

转载 CSS 颜色代码

颜色代码:1 白色 #FFFFFF 2 红色 #FF0000 3 绿色 #00FF00 4 蓝色 #0000FF5 牡丹红 #FF00FF 6 青色 #00FFFF 7 黄色 #FFFF00 8 黑色 #0000009 海蓝 #70DB93 10 巧克力色 #5C3317 11 蓝紫色 #9F5F9F 12 黄铜色 #B5A64213 亮金色 #D9D919 14 棕色 #A67D

2013-12-12 16:06:12 1204

原创 一点

http://www.thebigdata.cn/ZiLiaoXiaZai/

2013-12-11 09:55:23 376

转载 Spring AOP

此前对于AOP的使用仅限于声明式事务,除此之外在实际开发中也没有遇到过与之相关的问题。最近项目中遇到了以下几点需求,仔细思考之后,觉得采用AOP 来解决。一方面是为了以更加灵活的方式来解决问题,另一方面是借此机会深入学习Spring AOP相关的内容。本文是权当本人的自己AOP学习笔记,以下需求不用AOP肯定也能解决,至于是否牵强附会,仁者见仁智者见智。对部分函数的调用进行日志记录,用于观

2013-12-10 17:47:31 428

转载 HashMap的初始容量(initialCapacity)和装载因子(loadFactor)

按HashMap源码里的那种重构方法,如果reHash过多,显然会影响性能。所以为了防止过多的reHash,我们需要自己配置HashMap的装载因子loadFactor和初始的table容量capacity的大小(可以在构造函数里配或者调用方法配)。很容易理解,如果我们已经知道我们使用的HashMap一般情况的存储在1W对以上,你给它一个默认的16的初始的table容量,默认reHas

2013-12-10 17:44:15 5262

转载 & &&

&是位与,&一般用于取一个字节(八位)的位数,&& 是且,一般用于判断语句的双重条件,这个你应该懂吧,就说&的用法;如:a=10101000 如果我想取a的低四位,则可 10101000 & 00001111 00001000 这样我就取出了a的低四位1000两个意义差不多,只是用的地方不同!

2013-12-07 10:51:40 433

转载 ConcurrentHashMap

ConcurrentHashMap是Java 5中支持高并发、高吞吐量的线程安全HashMap实现。 实现原理 锁分离 (Lock Stripping) ConcurrentHashMap允许多个修改操作并发进行,其关键在于使用了锁分离技术。它使用了多个锁来控制对hash表的不同部分进行的修改。ConcurrentHashMap内部使用段(Segment)来表示这些

2013-12-05 17:32:15 402

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除