NLP
罗小黑嘛
贵有恒,何必三更起五更睡;
最无益,只怕一日暴十日寒
展开
-
文本相似度
前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模语料进行去重预处理,或者找寻某一实体名称的相...转载 2018-12-04 10:47:49 · 722 阅读 · 0 评论 -
语言模型训练工具srilm
转载自:https://www.jianshu.com/p/85781d5baf2e srilm是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。srilm支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型...转载 2019-07-13 15:31:38 · 862 阅读 · 0 评论