算法
文章平均质量分 73
Super.Jiju
C
Algorithms
Data mining
Web Mining
展开
-
从大量数据中除去重复数据
有道题说的是,如何从大量的数据中消除重复的数据比如有1w个数据,怎么快速的删除重复的数据呢有一些解法是先排序,然后逐一删除如果采取快速排序的方式呢,复杂度是O(nlogn)接着还有遍历一边,删除重复的数据。如果采用hash来做,似乎可以取得更好的结果:大概方法如下:采用取模hash函数, 找一个hash函数了,就这么映射过去,采用链接法避免冲撞 如果A 映射后的值和B,C,D...映射的相同原创 2008-03-01 15:58:00 · 5114 阅读 · 1 评论 -
Talking about 正则表达式30分钟入门教程
正则表达式30分钟入门教程目录 本文目标 如何使用本教程 正则表达式到底是什么东西? 入门 测试正则表达式 元字符 字符转义 重复 字符类 分枝条件 反义 分组 后向引用 零宽断言 负向零宽断言 注释 贪婪与懒惰 处理选项 平衡组/递归匹配 还有些什么东西没提到 联系作者 最后,来点广告...转载 2008-10-21 20:11:00 · 526 阅读 · 0 评论 -
Random Number Generation and Single-Server Simulation
排队,随机,模拟;Note that the theoretical answer for the mean queue length seen by an arriving customerin this system is given by h/(a–h) where h is the mean service time of a customer, and a is the mea原创 2008-10-21 20:18:00 · 682 阅读 · 0 评论 -
Query Segmentation Demo Release!
My demo about query segmentation which is based on prior paper has been released!If you are interested in it, You can view it with the site below:http://cid-806c498ddee76b61.skydrive.live.com/self原创 2009-07-27 13:05:00 · 2033 阅读 · 0 评论 -
说说拼写检查,spell checking
说说拼写检查,spell checkinghttp://super-jiju.spaces.live.com/Google的拼写检查做的很神奇,以一个相当高的准确率来判断你的输入是不是正确的;但是其中如何做的,谁也不清楚;这篇文章http://www.norvig.com/spell-correct.html, 里面描述了一个简单的模型; 但是上面这个模型的准原创 2009-05-17 19:04:00 · 2359 阅读 · 0 评论 -
如何提取一个query的concepts?
在一些基于object搜索,或者directory方面等等搜索,需要将一个query进行分割处理;比如:”Chineserestaurant at Bukit Timah Road“,有没有什么办法可以将这个query分成“Chinese restaurant”和“Bukit Timah Road”呢?然后再到数据库里面查找这两个concept对应的内容; http://su原创 2009-05-17 19:25:00 · 2133 阅读 · 0 评论 -
Latent Semantic Analysis(LSA)
Latent Semantic Analysis(LSA)这个东东效果还不错以前听过,可以理解将矩阵进行去噪;或者说把问题转换到这个矩阵的某个空间里面去用了SVD方法将特征向量空间进行推广;这里有个文档,不错,通俗易懂的描述了lsa;点击这里下载;http://3sztgg.blu.livefilestore.com/y1p7bK-BNxqs4NXZKCufRAPnts2J7oQ0RxI7Zv原创 2009-05-19 15:36:00 · 2150 阅读 · 0 评论 -
理论指导实践啊~~~~
理论指导实践! 近期一直想一个idea;本来是计算两个向量x,y的inner products,但是效果不是太好;所以我想,将这两个向量映射到某个空间上面去;然后再计算;感觉这个想法挺好的,差点就做实验了;今天忽然发现,不对;这是因为:Unitary matrices preserve the Euclidean inner product;也就是Unitary Matrix Q, (Qx,Q原创 2009-05-21 11:55:00 · 1887 阅读 · 0 评论 -
分词的那些事
<br />September 21分词的那些事(一)分词的那些事<br />By Super.Jiju<br />好久没更新blog了,前天为了让群里面的技术气氛活跃点,以及也整理整理自己的一些知识以便与大家交流,所以我把分词的前前后后介绍一下,希望大家多多指教。<br /><br /><br /><br />分词是中文自然语言处理里面最基础的工作,因此大家说到中文信息处理的时候,都会说到中文分词。事实上,切分的思想是没有语言边界的,下面从我的理解分别说一说分词的前因后果。整个介绍分为分词的需求背景,分词原创 2010-09-23 14:59:00 · 2032 阅读 · 0 评论 -
特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!590.entry特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating 这里给一个link,比较全面:http://3sztgg.blu.livefilestore.com/y1p2F8Lb8eNd原创 2009-05-17 19:03:00 · 2766 阅读 · 0 评论 -
有网盘啦,重新发自己写的Sudoku
October 16有网盘啦,重新发自己写的Sudoku 比起目前网上的很多Sudoku还是有不少亮点的;呵呵 点击下载吧原创 2008-10-21 20:24:00 · 638 阅读 · 0 评论 -
Radix Sort 基数排序
1.基本思想 实现排序主要是通过关键字间的比较和移动记录这两种操作,而实现基数排序不需要进行记录关键字间的比较,它是一种利用多关键字排序的思想,即借助"分配"和"收集"两种操作对单逻辑关键字进行排序的方法。 基数排序的方法是:一个逻辑关键字可以看成由若干个关键字复合而成的,可把每个排序关键字看成是一个d元组: 例如,如果关键字是数值,且其值在0~99范围内,则可把每一个十进制数原创 2008-10-21 20:14:00 · 778 阅读 · 0 评论 -
取石子游戏
有两堆石子,数量任意,可以不同。游戏开始由两个人轮流取石子。游戏规定,每次有两种不同的取法,一是可以在任意的一堆中取走任意多的石子;二是可以在两堆中同时取走相同数量的石子。最后把石子全部取完者为胜者。现在给出初始的两堆石子的数目,如果轮到你先取,假设双方都采取最好的策略,问最后你是胜者还是败者。 Input 输入包含若干行,表示若干种石子的初始情况,其中每一行包含两个非负整数a和b,表示两原创 2008-03-02 23:56:00 · 3987 阅读 · 0 评论 -
筛选法求素数
#include iostream> #include fstream> using namespace std; const int LENGTH=50; bool Array[LENGTH+1]=...{false};int main() ...{ ofstream FILE("mydata.txt"); for (int i=2;iLENGTH;++i) ...{转载 2008-03-03 20:19:00 · 1199 阅读 · 3 评论 -
放苹果
把M个同样的苹果放在N个同样的盘子里,允许有的盘子空着不放,问共有多少种不同的分法?(用K表示)5,1,1和1,5,1 是同一种分法。Input第一行是测试数据的数目t(0 Output对输入的每组数据M和N,用一行输出相应的K。Sample Input17 3Sample Output8f(m, n) = f(m-n, n) + f(m, n-1)f(m, n):原创 2008-03-03 14:15:00 · 1477 阅读 · 0 评论 -
最长公共子序列Longest Common Subsequence
求2个字符串的最长公共子序列(Longest Common Subsequence)运用动态规划,复杂度为O(mn)m,n分别为两子序列长度设:两个序列Xi 和Yj的lcs为c[i,j]如果图片显示不清楚,可在:http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!270.entry查看 根原创 2008-03-05 20:18:00 · 2085 阅读 · 1 评论 -
An Easy Problem
DescriptionAs we known, data stored in the computers is in binary form. The problem we discuss now is about the positive integers and its binary form. Given a positive integer I, you task is to fin原创 2008-03-06 23:14:00 · 901 阅读 · 0 评论 -
寻找发帖“水王”
http://www.msra.cn/Articles/ArticleItem.aspx?Guid=94650301-e7fa-4fd0-b7b4-388ff864697fTango是微软亚洲研究院的一个试验项目。研究院的员工和实习生们都很喜欢在Tango上面交流灌水。传说,Tango有一大“水王”,他不但喜欢发贴,还会回复其他ID发的每个帖子。坊间风闻该“水王”发帖数目超过了帖子总数的一半。转载 2008-04-03 16:51:00 · 697 阅读 · 0 评论 -
求二进制数中1的个数
http://www.msra.cn/Articles/ArticleItem.aspx?Guid=7cfc244e-aaf5-4669-be0a-3a8f32409731#. 对于一个字节(8bit)的变量,求其二进制表示中“1”的个数,要求算法的执行效率尽可能地高。 【解法一】转载 2008-04-03 17:15:00 · 842 阅读 · 0 评论 -
二叉搜索树C++实现
这个数据结构思想很易懂,对任意数据放入ADT中,如果比某个节点的值大,则向右面递归放入,反之~本来没打算写这个程序,但是在看书的时候,感觉书上有的地方好像有问题来才发现,我是彻彻底底地错了~!纸上得来终觉浅,绝知此事要躬行!实现程序如下: #include using namespace原创 2008-04-14 22:31:00 · 750 阅读 · 1 评论 -
THE DRUNK JAILER POJ1218
Description A certain prison contains a long hall of n cells, each right next to each other. Each cell has a prisoner in it, and each cell is locked. One night, the jailer gets bored and decides to pl原创 2008-04-14 00:19:00 · 1065 阅读 · 0 评论 -
分词的那些事(二)
<br />September 23分词的那些事(二)分词的应用背景也是基于上面两种情况来说吧。<br />先说基于信息检索的。根据我们前面的了解,可以知道这个分词在除了切分精度之外,另外一个重要的特征就是保证切分的一致性。比如说:用户搜索时候输入的query中包含的某些词 和 这些词在网页中的环境是不一样的。所以,这个时候,为了能搜索到相关的网页,切词一定要保证一致性。比如“北京市长是谁”,用户的query为“北京 市长”,搜索引擎就切分成“北京”“市长”,如果在网页中“北京市长某某”切分成了“北原创 2010-09-23 15:01:00 · 2003 阅读 · 0 评论