python
风狂的学者
学习就要有不畏风雨的疯狂,努力前行
展开
-
python 基础练习
python 基础练习(官方文档地址:https://docs.python.org)1、列表排序Python Console中自定义比较函数:def com(x,y): if x>y: return 1 if x==y: return 0 return -1com(3,5)-1com(5,5)0com(6,1)1tuple与lis原创 2017-06-22 16:22:35 · 239 阅读 · 0 评论 -
NPL实践系列:6、简单神经网络
1. 文本表示:从one-hot到word2vec1.1 词袋模型:离散、高维、稀疏1.2 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本2. 走进FastText2.1 FastText的原理2.2 利用FastText模型进行文本分类...原创 2019-03-13 17:16:09 · 436 阅读 · 0 评论 -
NPL实践系列:8、循环神经网络
1. RNN介绍1.1 RNN结构RNN(Recurrent Neural Network),即是循环神经网络,是一类用于处理序列数据的神经网络。从基础的神经网络中知道,神经网络包含输入层、隐层、输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是事先确定好的,那么神经网络模型通过训练“学“到的东西就蕴含在“权值“中。基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之...原创 2019-03-16 21:58:55 · 753 阅读 · 0 评论 -
NPL实践系列:5、神经网络基础
1. 神经网络基础概念1.1前馈神经网络、1.2网络层数、输入层、隐藏层、输出层、隐藏单元1.3激活函数。2. 感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。3. 激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)4. 深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化...原创 2019-03-12 13:32:27 · 880 阅读 · 0 评论 -
NPL实践系列:7、卷积神经网络
1. 卷积运算1.1卷积运算定义卷积,是我们在各种工程领域,信号领域所看到的常用名词,学通信的同学应该很熟悉。那什么是卷积?通俗来说,即是这样的一个变换过程:输出 = 输入 * 系统虽然它看起来只是个复杂的数学公式,但是却有着重要的物理意义,因为自然界这样的系统无处不在,计算一个系统的输出最好的方法就是运用卷积。更一般的,我们还有很多其他领域的应用:统计学中,加权的滑动平均是一种卷积。...原创 2019-03-15 21:55:12 · 1499 阅读 · 0 评论 -
NLP实践系列:9、Attention原理
1. Attention机制由来编码器-解码器 (Encode-Decode) 结构在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入...原创 2019-03-19 21:58:34 · 367 阅读 · 0 评论 -
NLP实践系列:3、特征选择
1. TF-IDF原理。TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都会...原创 2019-03-07 21:43:52 · 596 阅读 · 0 评论 -
NPL实践系列:4、传统机器学习
1. 朴素贝叶斯的原理原理基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,...原创 2019-03-09 21:50:21 · 469 阅读 · 0 评论 -
NLP实践系列:1、探索NPL数据集
1、数据集来源中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud英文数据集:IMDB数据集 Sentiment Analysis1、测试依赖包,TensorFlow版本import tensorflow as tffrom tensorflow import kerasimport nu...原创 2019-03-03 21:39:30 · 1371 阅读 · 0 评论 -
NLP实践系列:2、特征提取
自然语言处理中,特征提取是十分重要的一环,而提取特征,主要是提取单词的特征,比如读音,和语义。这就涉及到了分词的问题。1、基本文本处理技能1.1 分词相关的概念 分词指的是将一个单词序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1.2三类分词...原创 2019-03-05 17:38:38 · 1023 阅读 · 0 评论 -
NLP实践系列:10、最强NLP模型:BERT
导论:2018年NPL领域,很不凡,二月出了 ELMo,六月出了 OpenAI Transformer,十月又出了BERT,模型一个比一个强大,性能也是越加优良,最为目前特别亮眼的Bert模型,被称为最强NPL模型,究竟有何特别之处呢?他是有何而来的?接下来我们来探讨一下。1. Transformer的原理。自从google推出word2vec,传统的基于统计学的语言处理模型与基于神经网络...原创 2019-03-23 00:30:21 · 1821 阅读 · 0 评论