自然语言处理——分词中的一些概念

isxixi

于 2019-09-10 17:20:31 发布

阅读量593

点赞数

分类专栏：自然语言处理文章标签：分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/isxixi/article/details/100677113

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、中文分词方法

基于字典的分词方法
基础规则的分词方法
基于统计的分词方法（统计在一段话中出现频率最的那个分词字段）
基于深度学的的方法（通过大量的数据的学习）

二、词向量化

one-hot
word2vec 将词映射到多维空间里

三、神经网络

RNN（循环神经网络）
特点：记忆是短期，梯度消失以及梯度爆炸‘’
LSTM（长短期记忆网络）是 RNN 的进一步优化
特点：克服 RNN 梯度消失的问题，而且能学习到长距离的信息
BILSTM （双向长短期神经网络）

四、统计模型

CRF：条件随机场是标记、分割结构化数据的统计模型。CRF 优于隐马尔可夫模型在于放松了 HMM 所需的独立性假设。另外避免了标签偏差问题。CRF 训练的损失函数是凸函数，全局收敛，具有非常好的实用性。
特点:隐马尔可夫是有向图，每个状态依赖于上个状态，而线性链条件随机场是无向
图，当前状态依赖于周围结点的状态，可以捕捉全局信息，所以效果更好

五、jieba 分词
jieba 是结合基于规则和基于统计的分词工具。
jieba 有三种分词模式，分别是精确模式，全模式和搜索引擎模式
六、词向量

输入层
使用one-hot编码。
隐藏层
隐藏层的神经单元数量代表着每一个词用向量表示的维度。
输出层
七、分词的评估标准
精确率：正确的分词个数/总分词的个数
召回率：正确的个数/标准分词的个数
F值：正确率召回率2/(正确率+召回率)
错误率:错误分词的个数/标准分词的个数

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理——分词中的一些概念

一、中文分词方法基于字典的分词方法基础规则的分词方法基于统计的分词方法（统计在一段话中出现频率最的那个分词字段）基于深度学的的方法（通过大量的数据的学习）二、词向量化one-hotword2vec 将词映射到多维空间里三、神经网络RNN（循环神经网络）特点：记忆是短期，梯度消失以及梯度爆炸‘’LSTM 是 RNN 的进一步优化特点：克服 RNN 梯度消失的问题，...
复制链接

扫一扫

专栏目录

博客等级

码龄7年

47
原创

29
点赞

153
收藏

47
粉丝

关注

私信

热门文章

分类专栏

论文笔记
自然语言处理 1篇
深度学习 1篇
angularjs 2篇
js 14篇
css 2篇
生活
react 1篇
html 2篇
dom
jquery
插件 1篇
html5 1篇
css3 1篇
移动web 1篇
vue 4篇
es5 1篇
es6 3篇
git 2篇

最新评论

vue组件精讲
CSDN-Ada助手: 不知道 Vue入门技能树是否可以帮到你：https://edu.csdn.net/skill/vue?utm_source=AI_act_vue
ES5
小地方ht: [code=javascript] [1,2,3,4].forEach(function(i){alert(i)}) //等价于 var arr=[1,2,3,4]; for(var i=0;i<arr.length;i++){ alert(i) } //由此可见forEach方法方便很多，以后在编码尽量使用。 [/code] 这个地方写错了吧应该是alert(arr[i]);

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。