NLP
ortyi
脚踏实地,踏踏实实积累专业知识。切勿好高骛远、心浮气躁。干一行爱一行精一行。干哪一行就要吃哪一行的苦。其实计算机的设计凝结了人类的智慧,是对生活经验的哲学升华,学习这一行真的乐在其中(虽然有调不完的bug,哈哈哈)。做一个开开心心,快快乐乐,简简单单的程序员。争取成为一名对这个社会有意义有价值有贡献的人。
展开
-
NLP--2--语言模型
传统语言模型的两大缺点: 稀疏性和泛化能力差。稀疏性问题: n-gram模型只能对文本中出现的单词或者单词组进行建模,当新的文本中出现意义相近但是没有在训练文本中出现的单词或者单词组的时候,传统离散模型无法正确计算这些训练样本中未出现的单词的应有概率,他们都会被赋予0概率预测值,虽然传统方法会引入平滑来解决0概率问题,但整体上,效果并没有预想的好。泛化能力问题: (1) 离散模型还依赖于固定...原创 2019-07-07 18:45:15 · 537 阅读 · 0 评论 -
NLP---论文生词
1. 专业词汇downstream:下游downstream task:下游任务converge:收敛monolingual:单语的,只用一种语言的2. 描述性词汇marginally:轻微地,很少地,微不足道地outweigh:重于,大于,胜于,超过far outweigh:远远超过trivially:平凡地,微不足道地,琐细地...原创 2020-10-23 11:08:20 · 178 阅读 · 0 评论 -
NLP---text-RCNN
1. 简介参考:(1) Recurrent Convolutional Neural Networks for Text Classification(2) https://zhuanlan.zhihu.com/p/55015587(3) https://zhuanlan.zhihu.com/p/42201550设计思想:简而言之就是,结合RNN处理序列数据的优势与CNN提取局部特征...原创 2019-08-08 15:49:47 · 1000 阅读 · 0 评论 -
NLP---FastText
参考:https://blog.csdn.net/sinat_26917383/article/details/54850933https://www.leiphone.com/news/201608/y8rhWEglraduqcOC.html1. 简介fastText是Facebook于2016年开源的一个文本分类器。显著特点:快而且准确率高。相对于其它文本分类模型,如SVM,Lo...原创 2019-07-23 14:00:42 · 240 阅读 · 0 评论 -
NLP---Transformer
参考:https://blog.csdn.net/han_xiaoyang/article/details/86560459https://jalammar.github.io/illustrated-transformer/以下仅为个人学习笔记1. 简介Google于2017年在论文Attention is All You Need中提出。论文地址:https://arxiv.o...原创 2019-07-26 15:12:30 · 453 阅读 · 0 评论 -
NLP---BERT
参考:https://zhuanlan.zhihu.com/p/474880951. 简介BERT:Bidirectional Encoder Representations from Transformers.论文地址:是一种预训练模型,充分的描述了字符级、词级、句子级甚至句间关系的特征,在不同的NLP任务中,只需要为任务定制一个非常轻量级的输出层 (比如一个单层MLP) 就可以了...原创 2019-07-31 11:48:48 · 305 阅读 · 0 评论 -
NLP---textCNN
1. 原始 CNN 原理简介参考:《Python 深度学习》CNN:Convolutional Neural Network, 卷积神经网络,也叫 convnet.卷积计算过程: 第一个feature map中[0,0]位置元素的计算过程:(000001001)∗(11−1−101−1−10)=1\left( \begin{array}{ccc}0 & 0...原创 2019-08-04 17:27:10 · 258 阅读 · 0 评论 -
NLP---实践1-语种识别器
项目1:语种识别器一个项目要向面试官陈述的完整内容包括:项目背景、数据介绍、数据分析与预处理、特征工程、建模模型与优化对比、项目最终结果。文本表示:BOW,N-gram,TF-IDF,word2vec,word embedding,ELMo,BERT。分类模型:NB,LR,SVM,CNN,RNN (LSTM)。语种识别器部署:Flask。项目2:新闻文本挖掘与分类MLDL一、 文本...原创 2020-10-23 11:06:54 · 320 阅读 · 0 评论 -
NLP---RNN & LSTM & GRU & BiRNN & BiLSTM
1. RNNs (Recurrent Neural Networks)参考:https://blog.csdn.net/Jerr__y/article/details/58598296https://www.yunaitong.cn/understanding-lstm-networks.html以上两篇均是翻译:http://colah.github.io/posts/2015-08-U...原创 2019-07-22 11:03:39 · 1343 阅读 · 0 评论 -
NLP--6--文本表示2
1. Word Embedding参考:https://www.jianshu.com/p/2a76b7d3126b1.1 基本概念Word Embedding可以理解为一种映射,其过程是:将文本空间中的某个word,通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间。称之为embedding,是因为这种表示方法往往伴随着降维。输入:原始文本中不重复的词语的序列...原创 2019-07-20 18:46:37 · 217 阅读 · 0 评论 -
NLP---关于自然语言
参考:百度百科句法研究句子的各个组成部分和它们的排列顺序。语义 (semantic)语言所蕴含的意义,语义具有领域性特征。原创 2019-07-29 15:49:15 · 150 阅读 · 0 评论 -
NLP---seq2seq与注意力机制
1. seq2seq参考:https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/模型结构seq2seq是一个“编码解码器”结构,编码器处理输入序列中的每个元素,将捕获的信息编译成上下文内容向量 (context vector...原创 2019-07-26 13:58:52 · 1643 阅读 · 1 评论 -
NLP--4--条件随机场CRF
说明:这部分是统计自然语言处理中比较重要的部分,目前作为了解,会其意,有时间再补充细节,知其行。条件随机场CRF,conditional random field。CRF中的特征函数CRF与逻辑回归的比较:条件随机场是逻辑回归的序列化版本。CRF与HMM比较:(1)每一个HMM模型都等价于某个CRF。对于HMM中的每一个转移概率,CRF都可以构造一个特征函数,并使其权重为HMM中log...原创 2019-07-12 16:02:28 · 167 阅读 · 0 评论 -
NLP--3--隐马尔可夫模型HMM
说明:这部分是统计自然语言处理中比较重要的部分,目前作为了解,了解其思想,有时间再补充细节。隐马尔可夫模型(Hidden Markov Model,HMM)可见状态链隐含状态链:隐含状态之间存在转换概率(transition probability),马尔科夫状态链指的是隐含状态链。输出概率(emission probability): 隐含状态和可见状态之间的一个概率。HMM模型主要...原创 2019-07-12 11:51:39 · 196 阅读 · 0 评论 -
NLP--5--文本表示1
1. 文本表示将字符表示的文本转变为计算机可以处理的向量表示。2. 文本表示分类(基于表示方法)(1) 离散表示:one-hot表示,multi-hot表示(2) 分布式表示:a. 基于矩阵(细节不清楚,需要补充,比如SVD):基于降维的方法,基于聚类的方法b. 基于神经网络:CBOW,Skip-gram,NNLM,C&W,ELMo3. 文本离散表示(1) 词袋模型描述...原创 2019-07-16 15:16:16 · 241 阅读 · 0 评论 -
NLP--1--朴素贝叶斯
贝叶斯公式:P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)联合概率公式:P(X,Y)=P(Y∣X)P(X)=P(X∣Y)P(Y)P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y)P(X,Y)=P(Y∣X)P(X)=P(X∣Y)P(Y)汉语常用字2500个,常用词语56000个。符号...原创 2019-07-04 10:42:42 · 128 阅读 · 0 评论 -
NLP---实践2-文本分类MLDL
项目2:新闻文本挖掘与分类MLDL一、 文本分析与可视化读取数据,去除有缺失值的行,分词去除停用词统计词频做词云二、 中文自然语言处理分析1. 关键词提取1.1 基于TF-IDF算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPO...原创 2020-10-23 11:07:43 · 809 阅读 · 0 评论