- 博客(48)
- 资源 (5)
- 收藏
- 关注
原创 smartcn优化方案
smartcn,基于HMM模型的一套智能分词器,是ictclas的java简化版,原理网上已经能找到,也可以看我前面写的http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.aspx smartcn 通过计算能提高分词精度(比如 和服 的问题),这也会导致一个语义连贯的短语可能在不同的上下文产生不同的切分结果,因此用来做搜索引擎的
2011-03-26 16:25:00 1986
原创 PCA学习笔记
常常看到论文的标题里带有矩阵分解的方法,最常见的有四个PCA, SVD, LDA和NMF。之前看论文内容一看到矩阵公式基本就不看,水平有限,短期内啃也啃不动。看来该学的还是绕不出去,只能慢慢补上了…很早就听说主成分分析这个名词了,看到一个人写的博文,写得通俗易懂,一看就能明白http://pinkyjie.com/2010/08/31/covariance/http:/...............
2011-03-19 00:52:00 1778 3
原创 数据挖掘 graph mining 之 ranking 介绍
近年来,图挖掘graph mining渐渐热了起来。这里的图是图论里说的那个图,也就是点集合和边集合构成的一种数据结构。图挖掘中几个比较重要的方向有:1. community detection2. frequent subgraph mining 3. ranking ranking中最出名的就是google的pagerank, pa
2011-01-29 12:19:00 10187 2
原创 simhash进行文本查重
有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须
2010-11-14 16:47:00 17969 20
翻译 随机交换检验数据挖掘结果-assessing data mining result via swap randomization
这是一篇我比较推崇的文章.06年获得KDD的best paper runner up。近年来数据挖掘在理论上突破很少,这可以算一篇。长久以来,数据挖掘一直关注方法,很少有研究数据集潜在本质的,如何从数据集表现形式去挖掘数据之间更深刻的联系,这篇论文最大亮点就是提出了一种度量数据挖掘方法(尤其是无监督的的方法)在数据集上效果的新思路。 这篇文章随机交换的思想非常简单,除了第四章有难度,其
2010-10-12 22:41:00 2192 1
原创 lucene smartcn原理
Smartcn分词器是ictclas简化功能的java版Smartcn分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。例如:“他说的确实在理”这句话。1)原子切分的目的是完成单个汉字的切分。经过原子切分后变成“始##始/他/说/的/确/实/在/理/末##末”。2)然后根据“词库字典coredict”找出所有原子之间所有可能的组词
2010-06-13 20:23:00 9471
原创 ICTCLAS30做的lucene.net分词接口
随便搞搞搜索引擎技术,刚开始分词而已,综合考察了几个比较有名的分词方法,决定还是用中科院的分词程序。其中C#有个开源的,且网上已经有用SharpICTCLAS为lucene.net写的分词接口了,不过想试试用好一点的分词程序的效果,所以选了2009共享版的。本人编程技术还是非常菜的,如有不对请大家指出。 分词接口的代码我是综合这两篇博客:http://ythzjk.javaeye.co
2009-07-24 15:39:00 2914 4
几个推荐算法的java实现
2012-01-05
基于随机游走的社团发现算法Hadoop版
2011-07-07
二进制串模糊搜索的Java实现0.11
2011-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人