自然语言处理
mark_yueye
热衷于技术提升,热爱编程。
展开
-
自然语言处理中的若干问题
一、语言模型(一)N元语言模型(二)语言模型性能评价(三)数据平滑(四)语言模型自适应方法 二、汉语自动分词和词性标注(一)基本分词方法(二)未登陆词处理方法(三)基于多特征的命名实体模型(四)词性标注(五)词性标注的一致性检查和自动校对三、句法分析(一)统计句法分析以及句法分析的检查(二)原创 2013-11-08 16:51:52 · 2909 阅读 · 0 评论 -
编辑距离
1.Levenshtein distance(以下简称L氏距离)。 此距离由Levenshtein 于1965年定义,在这个定义体系中有三种原子操作:insertion,deletion,substitution(出处见论文《BINARY CODES CAPABLE OF CORRECTING,DELETIONS,INSERTIONS AND REVERSALS》);2.Damerau,F...2013-11-15 19:00:39 · 146 阅读 · 0 评论 -
自然语言处理的若干问题
一、语言模型(一)N元语言模型(二)语言模型性能评价(三)数据平滑(四)语言模型自适应方法 二、汉语自动分词和词性标注(一)基本分词方法(二)未登陆词处理方法(三)基于多特征的命名实体模型(四)词性标注(五)词性标注的一致性检查和自动校对三、句法分析(一)统计句法分析以及句法分析的检查...2013-11-08 16:18:47 · 293 阅读 · 0 评论 -
社会化网络分析
节点中心性是指网络中每个词在网络中处于什么地位。中心势反映整个词网中各个节点的差异性程度。由于计算方法的不同,节点中心度分为点度中心度,中间中心度和接近中心度。网络的中心势也分为点度中心势、中间中心势和接近中心势。 点度中心性中间中心性接近中心性绝对点度中心度原创 2014-05-23 17:24:29 · 1870 阅读 · 2 评论 -
基于领域相关度和领域一致度的领域术语抽取实现
需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。 每一个子文件夹中都包含该领域的文档,分别原创 2014-05-23 17:05:33 · 1347 阅读 · 0 评论 -
地球物理学部分术语共现图
地球物理学部分术语共现图原创 2014-05-23 16:37:26 · 1640 阅读 · 0 评论 -
词的向量表示
转自 http://licstar.net/archives/328Posted on 2013 年 7 月 29 日 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人转载 2014-04-30 12:59:13 · 11047 阅读 · 0 评论 -
机器翻译领域的新突破
#研究分享#【机器翻译领域的新突破】谷歌的Tomas Mikolov团队开发了一种词典和术语表的自动生成技术,能够把一种语言转变成另一种语言。该技术利用数据挖掘来构建两种语言的结构模型,然后加以对比。每种语言词语之间的关系集合即“语言空间”,可以被表征为数学意义上的向量集合。在向量空间内,不同的语言享有许多共性,只要实现一个向量空间向另一个的映射和转换,语言翻译即可实现。该技术效果非常不错,对英语转载 2014-04-30 12:52:15 · 1164 阅读 · 0 评论 -
基于SVMLight的文本分类
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地转载 2013-11-13 09:51:32 · 3879 阅读 · 0 评论 -
潜在语义分析
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)转载 2013-11-11 17:40:58 · 4528 阅读 · 1 评论 -
自动抽取新闻网页中的主要内容
抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。 String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+bro...2013-11-29 22:26:41 · 391 阅读 · 0 评论