![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
My project
_gcy_
这个作者很懒,什么都没留下…
展开
-
大规模字符串的匹配
使用三叉树构建AC自动机实现大规模字符串的匹配模式串数量127W,待搜索文件大小为700M+源代码链接:http://download.csdn.net/download/lncer7/10141451GitHub链接:https://github.com/gcy165/AC-TernarySearchTrie...原创 2017-12-01 22:50:01 · 978 阅读 · 0 评论 -
C语言爬虫
C语言并行爬虫(epoll),爬取服务器的16W个有效网页,通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重,对链接编号并写入url.txt文件,并通过中间文件和三叉树去除掉状态码非200的链接关系,因为匹配出来的链接不全都在服务器中,最后将正确的链接关系继续写入url.txt源代码链接:http://download.csdn.net/download/lncer7/10141454Git...原创 2017-12-01 22:52:24 · 7815 阅读 · 0 评论