NLP
Vincent(Hao Li)
-基于x86/riscv/龙芯mips的编译优化
-面向敏捷芯片开发的敏捷编译技术(编译器自动设计方法)
-面向跨平台跨编译器的性能分析
展开
-
CS224n笔记2 词的向量表示:word2vec
如何表示一个词语的意思先来看看如何定义“意思”的意思,英文中meaning代表人或文字想要表达的idea。这是个递归的定义,估计查询idea词典会用meaning去解释它。中文中“意思”的意思更加有意思:他说:“她这个人真有意思(funny)。”她说:“他这个人怪有意思的(funny)。”于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有...转载 2018-08-04 10:53:49 · 479 阅读 · 0 评论 -
CS224n笔记1 自然语言处理与深度学习简介
什么是自然语言处理这是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工...转载 2018-07-27 17:37:17 · 400 阅读 · 0 评论 -
Stanford CoreNLP依存关系分析、词性标注及句子主语分析(使用Python) 超详细截图手把手教学,新手友好
前言Stanford CoreNLP的源代码是使用Java写的,提供了Server方式进行交互。stanfordcorenlp是一个对Stanford CoreNLP进行了封装的Python工具包,GitHub地址,使用非常方便。本文以stanfordcorenlp接口为例(本文所用版本为Stanford CoreNLP 3.9.1),讲解Python调用StanfordCoreNLP的使用方...原创 2018-08-14 17:17:03 · 30930 阅读 · 42 评论 -
词性标记:VA,VC,VE,VV等
关于词性标记动词,形容词(4种):VA,VC,VE,VV1、谓词性形容词:VA谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:第一类:没有宾语且能被“很”修饰的谓语。第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修...原创 2018-08-13 17:50:30 · 14769 阅读 · 0 评论 -
基于WordNet的英文同义词、近义词相似度评估及代码实现
源码地址:https://github.com/XBWer/WordSimilarity 1.确定要解决的问题及意义在基于代码片段的分类过程中,由于程序员对数据变量名的选取可能具有一定的规范性,在某一特定业务处理逻辑代码中,可能多个变量名之间具有关联性或相似性(如“trade”(商品交易)类中,可能存在“business”,“transaction”,“deal”等同义词),在某...原创 2018-08-20 17:26:06 · 4907 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分...转载 2018-09-13 15:40:03 · 229 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子...转载 2018-09-13 15:40:49 · 180 阅读 · 0 评论 -
自然语言处理中句子相似度计算的几种方法
在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候我们就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题,那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。基本方法句子相似度计算我们一共归类了以下几种方法:编辑距离计算 杰卡德系数计算 TF 计算 TFIDF 计算 Word2Vec 计算下面我们来一一了...转载 2018-09-13 15:50:17 · 5402 阅读 · 0 评论