自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 如何训练一个词向量

现在在NLP领域,词向量是一切自然语言处理的基础,有了词向量我们就可以进行数据分析,文本聚类分类的一系列操作了。接下来我们就开始学习如何训练词向量,之前我们有介绍关于 word2vec 的博文 word2vec算法理解和数学推导,这篇博文我们就一起来学习如何实现词向量的训练。首先我们运用的语料是我之前爬取的京东小米9的好评,训练一个关于手机类的词向量。数据如下所示:首先我们需要给数据进行分词...

2019-09-26 16:44:26 3270 2

原创 中文命名实体识别NER详解

中文命名实体识别是在自然语言处理领域有着具足轻重的地位,因为在很多应用中,我们一定要提取出我们话术中的实体,所以说命名实体识别是非常重要的。一般来说,现在网上有很多NER的开源库,我们通过调用API就可以进行人名、地名、时间、机构名等实体的识别,效果也非常不错。但是这仅仅是限于某一些领域的命名实体识别,所以我们如果要进行特定领域的命名实体识别,就要另行进行开发。这里我们来一起学习用双向LSTM和C...

2019-09-21 16:40:17 3732 9

原创 中文情感分析

情感分析在NLP领域中是应用很广泛的技术,一般用深度学习来解决这一类的问题。其实我的理解就是情感分析就是一个分类问题。这里我爬取了京东小米9的用户评论,正面和负面的评价各1000条,爬虫和整体的代码我放在了 GitHub 。然后我把预训练的词向量文件放在了 百度网盘,提取码:rxci。我们一起来看看数据长得啥样,首先是小米9正面的评价:然后是小米9负面的评价:从这些数据印证了一句话,幸福...

2019-09-19 16:01:28 5992 6

原创 中文词性标注详解

所谓的词性标注在NLP领域是一个应用非常广泛的技术,总的来说,词性标注所解决的问题就是说,给定一句话 sss,我们将sss进行分词操作,可以将 sss 分成 nnn 个词,那么 sss 可以表示成:s=w1w2...wns = {w_1}{w_2}...{w_n}s=w1​w2​...wn​,我们将这 nnn 个词每一个词标注一个词性那么这句话词性可以表示成 t=z1z2...znt = {z_1...

2019-09-18 15:39:14 2975

原创 LeetCode 72. 编辑距离

编辑距离在自然语言处理中的应用是非常广泛的,比如在文本纠错中,编辑距离是必不可少的算法,下面这个题目就是计算两个单词的编辑距离计算:这道题目基本上用普通的办法很难去解决,只能考虑用动态规划来进行递推解答。首先我们可以确定只定义一维的DP[i]DP[i]DP[i]不能够有效地简化问题的处理,那么我们尝试用二维的DPDPDP来解答这个问题,首先我们定义一个二维的DP列表 DP[i][j]DP[i]...

2019-09-02 14:47:07 221

机器学习基础

机器学习基础,ML的技术都用在哪里,最常用的LR是什么,ML工程师都在干什么。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除