二十三、卷积神经网络概述 卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling层)
十九、Pytorch中的数据加载 1. Pytorch中DataSet的使用方法1.1 DataSet加载数据的方法DataSet是Pytorch中用来表示数据集的一个抽象类,在torch中提供了数据集的基类torch.utils.data.Dataset,继承这个基类,我们能够快速地实现对数据的加载**.**__len__:返回数据集大小; __getitem__:可以通过下标方式获取数据1.2 DataSet类的源码1.3 DataLoader使用方法定义dataset实例设置读取数据batch的大小,常用12
十五、中文词向量训练二 中文词向量训练二:Gensim工具训练中文词向量wiki.zh.text.seg为输入文件,wiki.zh.text.model和wiki.zh.text.vector为输出文件,model存储了训
十三、布式词向量模型 分布式词向量模型1.连续词袋模型1.1 连续词袋模型的概念CBOW模型全称为Continuous Bag-of-Words。CBOW是利用上下文信息来预测中心词。给定一个句子:“Pineapples are spiked and yellow”。中心词:“spiked”;上下文:“Pineapples, are, and, yellow”。中心词所限定的语义就被传递到上下文的词向量中,其他带刺植物的向量表示就会靠近Pineapples。1.2 连续词袋模模型的原理和计算过程输入层
十二、神经网络语言模型 神经网络语言模型1.NNLM的原理1.1 语言模型假设S表示某个有意义的句子,由一串特定顺序排列的词w1,w2,..,wnw_1,w_2,..,w_nw1,w2,..,wn组成,n是句子的长度。目的:计算S在文本中(语料库)出现的可能性P(S)。1.2 神经网络语言模型直接从语言模型出发,将模型最优化过程转化为求词向量表示的过程.2. NNLM的网络结构2.1 NNLM的结构图NNLM网络结构包括输入层、投影层,隐藏层和输出层2.2 NNLM的计算过程根据前面的
十一、词向量模型 1.独热编码1.1 独热编码的概念在英文中称作One-Hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。假如有三种颜色特征:红、黄、蓝。红=1,黄=2,蓝=3;红<黄<蓝;即红色:1 0 0 ,黄色: 0 1 0,蓝色:0 0 11.2 独热编码表示词向量John likes to watch movies. Mary likes too.John also likes to watch football games.1
十、词向量基础 1.计算机中如何表示一个词语和frog最接近的前7个单词有哪些1.1 向量空间分布的相似性计算机中表示的词语需要满足向量空间分布的相似性,向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用.1.3 向量空间分布子结构计算机中表示的词语同样需要满足向量空间子结构,学习的词向量模型最终目标是将词向量作为机器学习,特别是深度学习的输入和表示空间。2. 词向量的概念及问题2.1 词向量的概念在自然语言处理的任务中,词向量(
九、N-gram语言模型 1.语言模型语言模型的作用是根据文本输入 ,计算文本内容是句子的概率。2 N-gram模型介绍2.1 语言模型概念如果我们有一个由m 个词组成的序列(或者说一个句子),我们希望计算句子的概率。根据链式规则,可得根据马尔可夫假设可得:2.2 N-gram模型简介N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。