NLP基础学习
张酒肉
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯文本分类
文章目录朴素贝叶斯模型:简易文本分类朴素贝叶斯的学习和分类基本方法后验概率最大化的含义朴素贝叶斯法的参数估计极大似然估计学习与分类算法朴素贝叶斯----文本分类(应用过滤恶意留言等)参考资料朴素贝叶斯模型:简易文本分类朴素贝叶斯的学习和分类基本方法后验概率最大化的含义朴素贝叶斯法的参数估计极大似然估计学习与分类算法朴素贝叶斯----文本分类(应用过滤恶意留言等)本问题...原创 2019-05-20 11:20:04 · 838 阅读 · 0 评论 -
影评文本分类
电影评论分类:二分类问题使用IMDB 数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分化的评论。数据集被分为用于训练的25 000 条评论与用于测试的25 000 条评论,训练集和测试集都包含50% 的正面评论和50% 的负面评论。加载IMDB数据集IMDB 数据集内置于Keras 库。它已经过预处理:评论(单词序列)已经被转换为整数序列,其中每个整数代表字典中的...原创 2019-05-12 20:57:49 · 1210 阅读 · 1 评论 -
BERT
文章目录词向量模型word2vec --> ELMoELMo --> BERTBERT的三个亮点1.Masked Language Model2.Transformer —— attention is all you need3. sentence-level representation迁移策略BERT的使用加载BERT使用模型参考资料词向量模型横向比较word2vec,ELMo...原创 2019-05-30 21:09:28 · 3140 阅读 · 1 评论 -
卷积神经网络
文章目录卷积神经网络卷积一维卷积二维卷积卷积神经网络典型的卷积神经网络池化Text-CNN原理输入层卷积层池化层全连接层经典示例讲解Text-CNN对imdb数据集进行情感分析参考资料卷积神经网络目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络,使用反向传播算法进行训练。卷积神经网络有三个结构上的特性:局部连接,权重共享以及汇聚。这些特性使得卷积神经网络具有一定程度...原创 2019-05-23 21:09:38 · 1342 阅读 · 0 评论 -
循环神经网络
文章目录循环神经网络循环神经网络RNN简单循环网络SRN参数学习随时间反向传播算法BPTT实时循环学习算法RTRL长期依赖问题基于门控的循环神经网络长短期记忆网络LSTM门控循环单元网络GRURNN文本分类Recurrent Convolutional Neural Networks(RCNN)Text-RNN文本分类RCNN文本分类参考资料循环神经网络循环神经网络(Recurrent Neu...原创 2019-05-26 20:24:41 · 3105 阅读 · 6 评论 -
jieba分词
文章目录jieba中文分词分词模式算法操作主要功能分词HMM模型添加自定义词典载入词典调整词典通过用户自定义词典来增强歧义纠错能力关键词提取基于TF-IDF算法的关键词抽取基于 TextRank 算法的关键词抽取自定义语料库词性标注并行分词返回词语在原文的起止位置参考资料jieba中文分词jieba是目前最好的Python中文分词组件,它主要有以下3种特性:支持3种分词模式支持繁体分词...原创 2019-05-13 15:42:12 · 895 阅读 · 0 评论 -
文本表示:从one-hot到word2vec
文章目录从one-hot到word2vecone-hot向量word2vecCBOW模型Skip-gram模型使用gensim库中的Word2Vec参考资料从one-hot到word2vecone-hot向量词向量的意思就是通过一个数字组成的向量来表示一个词,这个向量的构成可以有很多种。其中,比较简单的方式就是所谓的one-hot向量。假设在一个语料集合中,一种有n个不同的词,则可以使用一...原创 2019-05-17 15:09:20 · 1221 阅读 · 0 评论 -
fastText原理及实践
文章目录fastText原理及实践预备知识Softmax回归分层Softmaxn-gram特征fastText分类字符级别的n-gram模型架构核心思想关于分类效果keras构建fastText参考资料fastText原理及实践预备知识Softmax回归Softmax回归(Softmax Regression)又被称作多项逻辑回归(multinomial logistic regressi...原创 2019-05-22 15:53:51 · 748 阅读 · 0 评论 -
神经网络基础篇
神经网络基础神经元人工神经元(Artificial Neuron),简称神经元(Neuron),是构成神经网络的基本单元,其主要是模拟生物神经元的结构和特性,接受一组输入信号并产出输出。假设一个神经元接受d个输入x1,x2,⋅⋅⋅,xdx_1, x_2, · · · , x_dx1,x2,⋅⋅⋅,xd,令向量x=[x1;x2;⋅⋅⋅;xd]x = [x_1; x_2; · · · ; ...原创 2019-05-22 10:15:22 · 1209 阅读 · 5 评论 -
LDA处理文本
文章目录LDA处理文本LDA简单介绍LDA生成过程LDA整体流程LDA操作过程上手过程doc2bow函数主题推断词和主题的关系单个词和主题的关系全部词和主题的关系每个主题,所有词概率和为1参考资料LDA处理文本LDA简单介绍LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。我们认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率...原创 2019-05-16 20:30:12 · 4617 阅读 · 5 评论 -
Tensorflow_BaseLearn
文章目录Tensorflow基础图、会话和Tensor常量、变量及占位符随机张量创建变量与变量的初始化Tensorflow 变量的保存与恢复placeholder占位符的使用fetch的用法参考链接Tensorflow基础简单整理图、会话、tensor、变量、feed和fetch的基本操作。学习资料的话网上有很多,推荐下北大的那个。使用图(graphs)来表示计算任务、在被称之为会话(Ses...原创 2019-05-12 13:48:54 · 976 阅读 · 0 评论 -
语言模型
文章目录语言模型统计语言模型求解的问题示例N-gram语言模型平滑化语言模型统计语言模型一个语言模型通常构建为字符串s的概率分布p(s),这里的p(s)实际上反应的是s作为一个句子出现的概率。这里的概率指的是组成字符串的这个组合的概率或是在训练语料中出现的似然,与句子是否合乎语法无关。对于一个由T个词按顺序构成的句子p(s)实际上求解的是字符串s的联合概率,利用贝叶斯公式,链式分解如下...原创 2019-05-16 15:46:31 · 486 阅读 · 0 评论 -
自然语言处理--特征选择
文章目录互信息与点互信息点互信息互信息sklearn编程实现TF-IDF及TF-IDF值的计算TF-IDF定义计算TF-IDF使用gensim提取文本的tfidf特征使用sklearn提取文本tfidf特征python提取文本的tfidf特征参考资料互信息与点互信息点互信息在机器学习领域,经常会用到点互信息PMI这个指标来衡量两个事物之间的相关性(比如两个词)。原理如下:若x与y不相关,...原创 2019-05-15 16:46:02 · 1304 阅读 · 0 评论 -
Attention原理
文章目录Attention原理HAN原理利用Attention模型进行文本分类参考资料Attention原理转载一个Hierarchical Attention神经网络的实现转载 图解Transformer转载 Attention原理和源码解析论文链接 Attention is All You NeedHAN原理论文链接Hierarchical Attention Network f...原创 2019-05-28 21:58:23 · 1325 阅读 · 0 评论