- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 如何训练一个词向量
现在在NLP领域,词向量是一切自然语言处理的基础,有了词向量我们就可以进行数据分析,文本聚类分类的一系列操作了。接下来我们就开始学习如何训练词向量,之前我们有介绍关于 word2vec 的博文 word2vec算法理解和数学推导,这篇博文我们就一起来学习如何实现词向量的训练。首先我们运用的语料是我之前爬取的京东小米9的好评,训练一个关于手机类的词向量。数据如下所示:首先我们需要给数据进行分词...
2019-09-26 16:44:26 3270 2
原创 中文命名实体识别NER详解
中文命名实体识别是在自然语言处理领域有着具足轻重的地位,因为在很多应用中,我们一定要提取出我们话术中的实体,所以说命名实体识别是非常重要的。一般来说,现在网上有很多NER的开源库,我们通过调用API就可以进行人名、地名、时间、机构名等实体的识别,效果也非常不错。但是这仅仅是限于某一些领域的命名实体识别,所以我们如果要进行特定领域的命名实体识别,就要另行进行开发。这里我们来一起学习用双向LSTM和C...
2019-09-21 16:40:17 3732 9
原创 中文情感分析
情感分析在NLP领域中是应用很广泛的技术,一般用深度学习来解决这一类的问题。其实我的理解就是情感分析就是一个分类问题。这里我爬取了京东小米9的用户评论,正面和负面的评价各1000条,爬虫和整体的代码我放在了 GitHub 。然后我把预训练的词向量文件放在了 百度网盘,提取码:rxci。我们一起来看看数据长得啥样,首先是小米9正面的评价:然后是小米9负面的评价:从这些数据印证了一句话,幸福...
2019-09-19 16:01:28 5992 6
原创 中文词性标注详解
所谓的词性标注在NLP领域是一个应用非常广泛的技术,总的来说,词性标注所解决的问题就是说,给定一句话 sss,我们将sss进行分词操作,可以将 sss 分成 nnn 个词,那么 sss 可以表示成:s=w1w2...wns = {w_1}{w_2}...{w_n}s=w1w2...wn,我们将这 nnn 个词每一个词标注一个词性那么这句话词性可以表示成 t=z1z2...znt = {z_1...
2019-09-18 15:39:14 2975
原创 LeetCode 72. 编辑距离
编辑距离在自然语言处理中的应用是非常广泛的,比如在文本纠错中,编辑距离是必不可少的算法,下面这个题目就是计算两个单词的编辑距离计算:这道题目基本上用普通的办法很难去解决,只能考虑用动态规划来进行递推解答。首先我们可以确定只定义一维的DP[i]DP[i]DP[i]不能够有效地简化问题的处理,那么我们尝试用二维的DPDPDP来解答这个问题,首先我们定义一个二维的DP列表 DP[i][j]DP[i]...
2019-09-02 14:47:07 221
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人