2019年09月_深圳湾刘能

09月 08月 07月 06月 05月 04月 03月 02月 01月

原创如何训练一个词向量

现在在NLP领域，词向量是一切自然语言处理的基础，有了词向量我们就可以进行数据分析，文本聚类分类的一系列操作了。接下来我们就开始学习如何训练词向量，之前我们有介绍关于 word2vec 的博文 word2vec算法理解和数学推导，这篇博文我们就一起来学习如何实现词向量的训练。首先我们运用的语料是我之前爬取的京东小米9的好评，训练一个关于手机类的词向量。数据如下所示：首先我们需要给数据进行分词...

2019-09-26 16:44:26 3270 2

原创中文命名实体识别NER详解

中文命名实体识别是在自然语言处理领域有着具足轻重的地位，因为在很多应用中，我们一定要提取出我们话术中的实体，所以说命名实体识别是非常重要的。一般来说，现在网上有很多NER的开源库，我们通过调用API就可以进行人名、地名、时间、机构名等实体的识别，效果也非常不错。但是这仅仅是限于某一些领域的命名实体识别，所以我们如果要进行特定领域的命名实体识别，就要另行进行开发。这里我们来一起学习用双向LSTM和C...

2019-09-21 16:40:17 3732 9

原创中文情感分析

情感分析在NLP领域中是应用很广泛的技术，一般用深度学习来解决这一类的问题。其实我的理解就是情感分析就是一个分类问题。这里我爬取了京东小米9的用户评论，正面和负面的评价各1000条，爬虫和整体的代码我放在了 GitHub 。然后我把预训练的词向量文件放在了百度网盘，提取码：rxci。我们一起来看看数据长得啥样，首先是小米9正面的评价：然后是小米9负面的评价：从这些数据印证了一句话，幸福...

2019-09-19 16:01:28 5992 6

原创中文词性标注详解

所谓的词性标注在NLP领域是一个应用非常广泛的技术，总的来说，词性标注所解决的问题就是说，给定一句话 sss，我们将sss进行分词操作，可以将 sss 分成 nnn 个词，那么 sss 可以表示成：s=w1w2...wns = {w_1}{w_2}...{w_n}s=w1w2...wn，我们将这 nnn 个词每一个词标注一个词性那么这句话词性可以表示成 t=z1z2...znt = {z_1...

2019-09-18 15:39:14 2975

原创 LeetCode 72. 编辑距离

编辑距离在自然语言处理中的应用是非常广泛的，比如在文本纠错中，编辑距离是必不可少的算法，下面这个题目就是计算两个单词的编辑距离计算：这道题目基本上用普通的办法很难去解决，只能考虑用动态规划来进行递推解答。首先我们可以确定只定义一维的DP[i]DP[i]DP[i]不能够有效地简化问题的处理，那么我们尝试用二维的DPDPDP来解答这个问题，首先我们定义一个二维的DP列表 DP[i][j]DP[i]...

2019-09-02 14:47:07 221

机器学习基础

机器学习基础，ML的技术都用在哪里，最常用的LR是什么，ML工程师都在干什么。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 如何训练一个词向量

原创 中文命名实体识别NER详解

原创 中文情感分析

原创 中文词性标注详解