自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 NLP小白的入门学习路线

新学期开始了,看了一些经验贴,现在学习前辈的经验给自己总结点规划,希望今年是收获满满的。一、推荐Github/博客系列(持续更新……)NLP/ML/CV[1]Algorithm_Interview_Notes-Chinese[2]THUNLP机器阅读理解[3]52nlp[4]深度学习前沿笔记[5]cs224n-camp[6]火爆 GitHub 的《机...

2019-02-24 13:59:39 3126 1

原创 NLP基础笔记5——词向量

一、什么是词向量词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量...

2019-02-27 21:22:28 1954 1

原创 LeetCode练习1(No.20,26,43)

练习大纲20.有效的括号 26.删除排序数组中的重复项11.盛最多水的容器43.字符串相乘43.字符串相乘(Java实现,python可以高精度乘法)预备知识:对于计算机无法用普通数据类型(如:longint)表示的大整数进行乘法运算,称为高精度乘法。Java,c++没有提供高精度的计算方案,,所以大整数的运算都需要手动实现。Python已经为我们提供了高精...

2019-02-27 16:59:53 294

原创 NLP基础笔记4——语言模型

一、简介首先放一张基于Language Model的NLP主要模型算法梳理框图。NLP语言模型可分为传统语言模型与神经语言模型。简言之,语言模型就是给句子(词序列)分配一个概率。这个概率表示这句话“合理程度”。举个例子:你儿子在我手上,快点把打过来。 prob=0.80# 这样一个句子,非常“通顺”,就得到一个很高的概率值。特朗普在厕所里摆满了多个艺员。 prob=0.2...

2019-02-23 22:29:34 807 1

原创 NLP基础笔记3——句法分析

相较于前两节介绍的词法分析(分词、词性标注或命名实体识别等),句法分析属于NLP较为高阶的问题。本节着重介绍基于统计的句法分析方法,主要介绍基于上下文无关文法的句法分析。在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。我们可以用树状结构图来表示,S表示句子;NP、VP、...

2019-02-23 20:35:40 2839

原创 NLP基础笔记2——词性标注与命名实体识别,关键词提取技术

一、词性标注词性标注(Part-of-Speech tagging 戒POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词戒其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,戒者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%...

2019-02-22 14:47:23 3145

原创 NLP基础笔记1——中文分词技术

一、简介中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文 (信息) 处理的基础,搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。目前主流分词方法:基于规则,基于统计以及二者混合。基于规则的分词:主要是人工建...

2019-02-20 21:17:12 1436 6

原创 自然语言处理综述

自然语言处理技术分类工业界NLP四大任务:① 序列标注:分词、POSTag 词性标注、NER、语义标注② 分类任务:文本分类、情感计算③ 句子关系判断:Entailment、QA、自然语言推理④ 生成式任务:机器翻译、文本摘要拓:自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理。文本蕴含任务(te...

2019-02-01 20:32:54 1848 1

NLP2018发展综述

NLP2018发展综述《Recent Trends in Deep Learning Based Natural Language Processing》

2019-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除