NLP自然语言处理
陈宸-研究僧
这个作者很懒,什么都没留下…
展开
-
NLP自然语言处理:jieba中文处理入门与进阶(官方文档解读)
jieba就是非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。官方介绍:https://github.com/455125158/jiebaimport jiebaimport jieba.posseg #词性标注import jieba.analyse #关键词提取目录1.基本分词函数与用法1.1添加用户自定义词典2 关键词提取2.1 基...原创 2019-05-24 19:35:08 · 1259 阅读 · 0 评论 -
NLP自然语言处理:文本表示总结 - 下篇(ELMo、Transformer、GPT、BERT)
上篇:https://blog.csdn.net/qq_35883464/article/details/100042899再上篇中我们讲解了从one-hot到GloVe,都是2014年以前比较火的模型。那么下篇就来探讨最近几年比较火的文本表示,不谈具体推导公式(公式可以看一手论文),只谈解决了问题和最后结果,按照时间顺序和行业发展,详细讲述为什么会出现这个模型,这个模型又有什么缺点,下个模型...原创 2019-09-04 10:58:32 · 4709 阅读 · 0 评论 -
NLP自然语言处理:Trasformer详解 - 论文《Attention is All You Need》总结
论文《Attention is All You Need》地址:https://arxiv.org/abs/1706.03762英文原版Trasformer详解:https://jalammar.github.io/illustrated-transformer/在本文中,将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。目录一、宏观理解Trasforme...原创 2019-09-01 20:22:32 · 2369 阅读 · 1 评论 -
NLP自然语言处理:文本表示总结 - 上篇word embedding(基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe )
文本表示分类(基于表示方法)离散表示 one-hot表示 词袋模型与TF-ID 分布式表示 基于矩阵的表示方法 降维的方法 聚类的方法 基于神经网络的表示方法 NNLM CBOW Skip-gram GloVe ELMo GPT BERT 目录一、文本离散表示1.1 文本离散表示:one-hot...原创 2019-08-30 14:40:25 · 3800 阅读 · 0 评论 -
NLP自然语言处理:神经网络语言模型(NNLM)
目录一、传统语言模型1.1 稀疏性1.2泛化能力差二、神经网络语言模型2.1 前馈神经网络模型(FFLM)2.2 循环神经网络模型(RNNLM)2.2.1循环神经网络模型示例2.2.2RNN语言模型训练过程2.2.3RNN语言模型反向传播2.2.4语言模型评估语言模型的构建目的是为了对语言中的各要素的分布进行估计,具有较长的研究历史和广泛...原创 2019-08-17 14:54:52 · 11404 阅读 · 2 评论 -
NLP自然语言处理:从词性标注中理解 条件随机场(CRF)
目录1. CRF的特征函数2. 从特征到概率3. CRF和隐马科夫模型HMM4. 关键总结如果说,你有一天生活中的一连串快照,你想在这些照片上面打上活动内容的标签(吃睡、睡觉、开车等)。你会怎么做?一种方式是忽略这些快照的本质, 建立一个图片分类器。举个例子,事先给定一个月的打标快照,你可能会了学到在早上6点拍的较暗的照片很可能是在睡觉,有很多明亮颜色的照片,很可能是...原创 2019-08-20 17:04:07 · 1143 阅读 · 0 评论 -
NLP自然语言处理:(viterbi算法、隐马科夫链、动态规划、naisy channel 模型)实现英文分词
目录一、viterbi算法二、英文分词基础知识2.1场景2.2 公式推导(naisy channel model)2.3 动态规划三、代码3.1数据处理3.2 平滑处理3.3计算模型参数3.4 viterbi算法viterbi算法是学习自然语言处理的基础算法,已经会有很多博客写了关于viterbi算法的数学介绍。但是对于在nlp中实践应用的博...原创 2019-08-03 16:29:24 · 1894 阅读 · 0 评论 -
准确分词:加载自定义字典分词(pyhanlp分词示例)
目录一、pyhanlp1.1基本介绍1.2 pyhanlp加入字典二、分词对比tokenizer.py :hanlp函数cut_data.py 主文件全部代码、数据集:https://github.com/455125158/NLP_basis一、pyhanlp1.1基本介绍pyhanlp介绍:https://github.com/ha...原创 2019-06-20 15:10:29 · 2539 阅读 · 0 评论 -
详解LSTM (Long Short - Term Memory)网络
在LSTM的文章中最出名文章之一就是 Christopher Olah 的博文 感觉这篇博客图画的非常棒,公式也写的很清楚,但是缺失一些感性理解。自己在看了七月在线寒小阳和练数成金对于LSTM的讲解,对于LSTM有了更深的理解,写一篇博客总结下。目录RNN引出LSTM的感性认知LSTM原理(理性认知)第一步:忘记门第二步:输入门第三步:更新第四步:输出...原创 2019-05-22 21:05:39 · 1759 阅读 · 0 评论 -
NLP自然语言处理:关键词提取
基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一...原创 2019-09-06 15:53:10 · 1034 阅读 · 0 评论