![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算服和理论相关
JCJC错别字检测-田春峰
这个作者很懒,什么都没留下…
展开
-
正则表达式和有穷机
说起正则表达式,说起来开心,用起来头疼。比Perl的语法还要难受。 比如: 要匹配类似(a+(a+a)+(a))这样的表达式, 你觉得用Regex要怎么写呢?(?>(?/()(?=[a-zA-Z_]|/()|(?/))(?=[+]|/)|/z)|(?(?[a-zA-Z_](?:[0-9a-zA-Z_])*))(?=/)|[+]|/z)|(原创 2004-06-30 09:17:00 · 2300 阅读 · 1 评论 -
中文分词和二元分词综合对比
中文分词和二元分词综合对比 为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。 采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒;原创 2005-06-17 13:12:00 · 6575 阅读 · 0 评论 -
Boyer-moor 字符串搜索算法
Boyer-moor 字符串搜索算法 最近因为需要从大量的文本中检索字符串,于是想比较一下java jdk提供的 indexof 算法,和其他字符串搜索算法的效率。字符串搜索算法有多种,其中比较有名的是boyer-moore算法。在Moore 先生的主页上有关于 boyer-moore算法的详细介绍。 moore先生介绍的通俗易懂,相信大家都能看明白。 同时还看到:Boyer-原创 2005-06-23 23:24:00 · 3859 阅读 · 1 评论 -
关于 贝叶斯 计算公式的一个问题
关于 贝叶斯 计算公式的一个问题 网络上流传的关于反垃圾邮件的贝叶斯算法大都和这篇类似。 但是里面的公式和作者举的例子却有冲突的地方: 公式如下: A事件----邮件为垃圾邮件; t1,t2 …….tn代表TOKEN串 则P(A|ti)表示在邮件中出现TOKEN串ti时,该邮件为垃圾邮件的概率。 设 P1(ti)=(ti在hash原创 2005-02-22 21:05:00 · 2813 阅读 · 0 评论 -
如何判断一个图是稀疏的还是稠密的
如何判断一个图是稀疏的还是稠密的 最近涉及了一些图的算法,发现用途蛮广,比如:物流配送,中文分词,甚至课程排列都可以用图来表示和计算。无论哪种用途选择一个合适的图数据结构至关重要。 图有两种主要的表示方法:邻接矩阵和邻接表。 决定我们采用邻接矩阵还是采用邻接表来表示图,需要判断一个图是稀疏图还是稠密图。邻接矩阵和邻接表表示图所需的存贮空间和算法时间度相差非常大,所以判原创 2005-02-20 09:51:00 · 12931 阅读 · 0 评论 -
实现文本自动分类的基础----Term频率计算方法
实现文本自动分类的基础----Term频率计算方法 据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时候,通过目录导航机制,我们就能找到所需要的信息,Yahoo抓住这个机会成功了;后来随着互联网的普及原创 2005-01-26 23:05:00 · 4004 阅读 · 3 评论 -
文本聚类平移算法的几点问题
文本聚类平移算法的几点问题文本处理,我的最爱---题记大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:卢亮的blog。记得当时第二天就看到了carrot2的发布,carrot2 上使用了多种聚类的算法。有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,原创 2006-10-30 16:45:00 · 4429 阅读 · 0 评论