![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
ice_actor
这个作者很懒,什么都没留下…
展开
-
多模匹配算法之Aho-Corasick
背景除剔除那些含有敏感词的文本,由于有大量的敏感词,所以通过简单的正则表达式和字符串查找的方式效率太低,每次都有遍历一次字符串。而AC算法的核心思想就是避免不必要的回溯使搜索一直沿着向前的方向,最大可能的减小了时间复杂度,时间复杂度O(N),N为所有的字符串的长度,而且关键字的字数和长度无关。基本思路该算法核心:字典树的构建及搜索路径的确定 算法动画示例:确实很给力 1. 字典树的构造 就是原创 2016-05-30 20:40:25 · 2327 阅读 · 0 评论 -
文本处理
结巴分词快速入门word2vec词向量训练及中文文本相似度计算利用中文数据跑Google开源项目word2vec - hebin 用中文把玩Google开源的Deep-Learning项目word2vec利用word2vec对关键词进行聚类原创 2016-07-19 19:11:54 · 288 阅读 · 0 评论 -
决策树分类与回归(一)
一、决策树决策树(decision tree)就是构建一个树结构,每个非叶结点表示一个特征属性的测试,每一个分支代表这个特征属性在某个值阈上的输出,每个叶节点存放一个类别。相比于其他的分类模型,决策树模型可读取性好,易于描述和人工分析 。二、决策树的构建构造决策树的关键就是分类属性,在某一个节点,选择一个合适的属性,按照该属性的不同划分构造不同的分支,所以决策树的核心怎样度量所选择的划分属性是合理的原创 2016-08-14 13:44:49 · 474 阅读 · 0 评论