博客专栏  >  综合   >  文本算法原理和实现

文本算法原理和实现

介绍一些简单的文本处理算法

关注
0 已关注
8篇博文
  • Chinese-Whispers 代码实践与调节

    关于Chinese-whispers 的原理不再累述,可见之前的博客或者github中的论文翻译。代码有两个版本:主要的修改对比如下1.处理过程中预处理的精化在第一版本的基础上,加强了文本预处理的精度...

    2018-04-16 19:12
    40
  • Lucene 简单入门

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引...

    2018-02-05 17:00
    28
  • 详解 KDTree

    简介kd树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。一个KDTree的例子上图的树就是一棵KDTree,形...

    2018-04-11 15:56
    12
  • k-means 聚类算法的缺陷

    k-means算法是一种典型的基于距离的算法,它以距离作为评价相似度的指标。两个对象的距离越近,则相似度也就越大。其算法步骤如下:1.随机选取K个聚类中心点。基于这k个中心点计算每个对象到中心点的距离...

    2018-02-27 14:26
    51
  • kmeans 文本聚类方法简介

    k-均值算法是一个很常见的算法,它的基本思想是:通过迭代寻找k个聚类的一个划分方案,使得用这K个聚类的均值来代表相应各个样本时所得的总体误差最小。算法步骤:1.生成索引文件   将分类的文本以句子id...

    2018-02-09 18:36
    18
  • CW聚类算法原理 -- 译自《Chinese Whispers》论文

    Chinese Whispers-一个有效的图聚类算法及其在自然语言处理问题中的应用                                                          ...

    2018-01-26 14:58
    259
  • 关于textrank的原理和使用,提取文章摘要

    从Page_rank 到 text_rank的摘要提取text-rank结果优化和完整的代码可见我的github 链接:https://github.com/ouprince/text-rank1.关...

    2018-01-16 13:32
    213
  • 关于word2vec 句子相似度计算

    在生成词向量之后,基于词向量计算句子相似度: 1.首先处理句子的重点词汇,排除无关词汇,比如我你他之类的,non_words.txt里面是一些无关词汇 2.接下来根据相关的处理结果,做一个...

    2018-01-16 11:10
    199
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部