算法
Amars_丁
这个作者很懒,什么都没留下…
展开
-
Aho-Corasick自动机算法(简称AC自动机
目录(?)[+]1、概述Aho-Corasick自动机算法(简称AC自动机)1975年产生于贝尔实验室。该算法应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点,一个是扫描文本时完全不需要回溯,另一个是时间复杂度为O(n),时间复杂度与关键字的数目和长度无关。好了,我们先看下最原始的多模式匹配算法:主串T,n=strlen(T)。模式串Pi mi转载 2014-03-14 09:32:03 · 1134 阅读 · 0 评论 -
复制代码时, 怎么能把行号也复制下来
分类: VB2011-07-13 11:46 705人阅读 评论(0) 收藏 举报vbeach工具ide给你一个我以前写的sub也就是一个宏。在word中:Alt+F11进入VB编辑器后,将代码粘贴。选中要添加行号的内容。按Alt+F8就可能看到一个HangHao_fhj的宏。点运行,就可以在每行(以换行符结束的行)前加上行号PS:可以将宏放常用工具栏上,转载 2014-04-28 21:11:08 · 3918 阅读 · 0 评论 -
统计大量文本中重复字符串的最大个数
有大量中文繁体的文本,都是网上摘取的,大小有6G。需要提取文本中相同的字符串的最大个数有几个关键问题:1.字符串的粒度如何确定?如何表示字符串的唯一位置索引?2.字符串过多,如何快速确定是否相同,时间复杂度要尽量低3.文本过多,无法放入内存怎么办4.如何统计相同hash值的个数,以及记录它们的索引位置对于1,每次读取一行,然后以100个字节为一组作为比较的字符串。每行最后一转载 2015-06-11 13:02:45 · 1074 阅读 · 0 评论