相国-CSDN博客

原创 smartcn优化方案

smartcn，基于HMM模型的一套智能分词器，是ictclas的java简化版，原理网上已经能找到，也可以看我前面写的http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.aspx smartcn 通过计算能提高分词精度（比如和服的问题），这也会导致一个语义连贯的短语可能在不同的上下文产生不同的切分结果，因此用来做搜索引擎的

2011-03-26 16:25:00 1986

常常看到论文的标题里带有矩阵分解的方法，最常见的有四个PCA, SVD, LDA和NMF。之前看论文内容一看到矩阵公式基本就不看，水平有限，短期内啃也啃不动。看来该学的还是绕不出去，只能慢慢补上了…很早就听说主成分分析这个名词了，看到一个人写的博文，写得通俗易懂，一看就能明白http://pinkyjie.com/2010/08/31/covariance/http:/...............

2011-03-19 00:52:00 1778 3

翻译 simhash用来进行海量文本近似去重的mapreduce版本

simhash用来进行海量文本近似去重的mapreduce版本

2011-03-03 20:53:00 4111

原创数据挖掘 graph mining 之 ranking 介绍

近年来，图挖掘graph mining渐渐热了起来。这里的图是图论里说的那个图，也就是点集合和边集合构成的一种数据结构。图挖掘中几个比较重要的方向有：1. community detection2. frequent subgraph mining 3. ranking ranking中最出名的就是google的pagerank, pa

2011-01-29 12:19:00 10187 2

原创 simhash进行文本查重

有1亿个不重复的64位的01字符串，任意给出一个64位的01字符串f，如何快速从中找出与f汉明距离小于3的字符串？大规模网页的近似查重主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页，对搜索引擎而言，去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须

2010-11-14 16:47:00 17969 20

翻译随机交换检验数据挖掘结果-assessing data mining result via swap randomization

这是一篇我比较推崇的文章.06年获得KDD的best paper runner up。近年来数据挖掘在理论上突破很少，这可以算一篇。长久以来，数据挖掘一直关注方法，很少有研究数据集潜在本质的，如何从数据集表现形式去挖掘数据之间更深刻的联系，这篇论文最大亮点就是提出了一种度量数据挖掘方法（尤其是无监督的的方法）在数据集上效果的新思路。这篇文章随机交换的思想非常简单，除了第四章有难度，其

2010-10-12 22:41:00 2192 1

原创 lucene smartcn原理

Smartcn分词器是ictclas简化功能的java版Smartcn分词三步：1）原子切分；2）找出原子之间所有可能的组词方案；3）N-最短路径中文词语粗分三步。例如：“他说的确实在理”这句话。1）原子切分的目的是完成单个汉字的切分。经过原子切分后变成“始##始/他/说/的/确/实/在/理/末##末”。2）然后根据“词库字典coredict”找出所有原子之间所有可能的组词

2010-06-13 20:23:00 9471

原创 ICTCLAS30做的lucene.net分词接口

随便搞搞搜索引擎技术，刚开始分词而已，综合考察了几个比较有名的分词方法，决定还是用中科院的分词程序。其中C#有个开源的，且网上已经有用SharpICTCLAS为lucene.net写的分词接口了，不过想试试用好一点的分词程序的效果，所以选了2009共享版的。本人编程技术还是非常菜的，如有不对请大家指出。分词接口的代码我是综合这两篇博客：http://ythzjk.javaeye.co

2009-07-24 15:39:00 2914 4

几个推荐算法的java实现

java实现的几个推荐算法：slopeone SVD,RSVD,ItemNeighborSVD 内有readme,相关内容在blog.csdn.net/lgnlgn

2012-01-05

基于随机游走的社团发现算法Hadoop版

基于随机游走的社团发现算法Hadoop版以及一个graph生成程序。整个是个eclipse项目，没有把lib放上来。内容在 http://blog.csdn.net/lgnlgn/article/details/6561876 的下一篇博客

2011-07-07

二进制串模糊搜索的Java实现0.2

在之前版本http://download.csdn.net/source/3339688 上增加修改了一些

2011-06-18

二进制串模糊搜索的Java实现0.11

http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx 中提到的论文中的算法部分，整个eclipse工程打包了。

2011-06-04

二进制串模糊搜索的Java实现0.1

WWW07的 Detecting Near-Duplicates for Web Crawling 算法部分，eclipse工程整个打包了