2019年03月_士416

原创菜鸟入门学习使用深度学习floydhub

1 floydhub介绍 floydhub是国外的一个非常简单的入门级深度学习云平台，提供了12G的k80显卡，足够入门和小项目运行。其好处是操作简单(笔者使用起来有点呛。。。)。实际上是将aws的GPU主机进行了封装集成，通过本地命令行直接调用；缺点在于价格较高，每GPU小时1.2美金。2 floydhub注册及基本使用 floydhub网址：https://www.flo...

2019-03-20 22:04:48 2768 9

原创 NLP_task9: Attention

1 Attention基本原理在“Neural Machine Translation By Jointly Learning To Align And Translate”中，为解决RNN-Encoder-Decoder的基础上target端输入固定长度的问题，提出了Align方式，这也是Attention的开始。这篇paper中，它将输入句子编码成一系列向量，并在解码翻译时自...

2019-03-18 12:14:10 379

原创 NLP_task8：循环神经网络

1 RNN结构 RNN，循环神经网络。首先看一个简单的循环神经网络，由输入层、一个隐藏层和一个输出层组成：其中，U是输入层到隐藏层的权重矩阵，o是输出层的值，V是隐藏层到输出层的权重矩阵，权重矩阵W是隐藏层上一次的值作为下一次输入的权重。一般的循环神经网络如下图：在这个网络中，时刻t接收到输入之后，隐藏层的值是,输出值是。从网络中可以看出，不仅取决于，还取决于。我们可以用...

2019-03-16 21:32:32 575

原创 NLP_task7：卷积神经网络

1 卷积神经网络原理卷积神经网络(Convolutional Neural Networks,CNN),是由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络。一般地，CNN的基本结构包括两层，一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征；一旦该...

2019-03-15 21:00:00 1544

原创 NLP_task6: 简单神经网络(word2vec\FastText)

1 文本表示：从one-hot到word2vec word2Vec也称word embeddings，是一个可以语言中字词转化为向量形式表达(Vector Representations)的模型。在Word2Vec出现之前，通常将字词转化成离散的单独的符号，比如将“中国”编号为5178的特征，将北京编号为3987的特征，这即是One-Hot Encoder。一个词...

2019-03-13 21:42:34 937

原创 NLP_task5: 神经网络基本概念、激活函数、防止过拟合的方法、参数优化

1 神经网络相关的基本概念前馈神经网络：是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。网络层数、输入层、隐藏层、输出层、隐藏单元：下面以图为例，介绍这些名词的含义网络层数：一般是指设置或者搭建的模型有多少层。以上图为例，网络层为3。输入层：一般指数据输入模型的一层，如图。输出层：一般指模型的最后...

2019-03-11 22:09:35 2817

原创斐波那契数列、青蛙跳、变态青蛙跳

斐波那契数列大家都知道斐波那契数列，现在要求输入一个整数n，请你输出斐波那契数列的第n项（从0开始，第0项为0）。(斐波那契数列：0，1，1，2，3，....,即后一项为前两项之和的数列)demo：class Solution: def Fibonacci(self, n): # write code here if n<=1: ...

2019-03-10 14:52:57 936

原创 NLP学习__task4：传统机器学习：朴素贝叶斯、SVM、PLSA、LDA

1、朴素贝叶斯的原理在所有机器学习分类算法中，朴素贝叶斯和其他绝大多数分类算法不同。不同于：例如决策树、KNN、逻辑回归、支持向量机等，这些都是判别方法，即直接学习出特征输出Y和特征X之间的关系，也是决策数；而朴素贝叶斯是生成方法，即直接找出特征输出Y和特征X的联合分布，然后用得出。1）朴素贝叶斯的定理首先，明确贝叶斯统计方式与统计学中的频率概念不同：从频...

2019-03-09 17:55:32 2098 1

原创 NLP学习__task3： : 特征提取：TF-IDF、词向量表示、互信息原理、特征筛选

1 TF-IDF原理TF-IDF原理在另一篇博客：关键词抽取模型已经提及，这里不在重复。2 文本矩阵化笔者理解的文本矩阵化，即将文本进行“词向量化”。这里简述常见的语言表示模型(词嵌入、句表示、篇章表示)。词向量类型：1）一个词一列向量的表示方法有Hash算法和word2vec。hash算法将词打散成(01010101)的数值，word2vec则同时打散定义成了向量。wor...

2019-03-07 11:04:58 4922

原创 NLP学习__task2：特征提取：基本文本处理、语言模型

1. 基本文本处理技能——中文分词1.1 分词的概念中文分词，即Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。根据中文的特点，可以将分词算法分为四大类：1）基于规则的分词方法；2）基于统计的分词方法；3）基于语义的分词方法；4）基于理解的分词方法。下面对这几种方法分别进行总结：1）基于规则的分词方法又称为机...

2019-03-05 17:06:33 848 1

原创关键词抽取模型

关键词抽取模型常见的算法有TF-IDF、TextRank等，本文仅在这里对这两种方法作原理的简单介绍。1 TF-IDF算法 TF-IDF(term frequency-inverse document frequency) :一种用于资讯检索于资讯探勘的常用加权技术。是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随...

2019-03-04 17:10:21 6323 1

原创 NLP学习__task1：数据探索：IMDB数据集探索、CNN处理文本、召回率、准确率、ROC曲线、AUC、PR曲线概念学习

1 IMDB数据集探索见链接：IMDB数据集探索2 THUCNews数据集探索2.1 参考博客学习参考博客链接：CNN字符级中文分类-基于Tensorflow实现rnn_cnn.py运行结果：rnn_rnn.py运行结果：代码还在运行中。。。学习感受：首先是根据训练数据建立词典，生成字词对应数字的词典；然后是将文本转化为数据，对每一个训练样本数据进行...

2019-03-03 20:31:27 1084

原创 AdaBoost算法

1、AdaBoost算法1）Boosting提升算法Boosting算法是将“弱学习算法”提升为“强学习算法”。其主要涉及两个部分，加法模型和前向分步算法。加法模型就是说强分类器由弱分类器线性相加而成。一般组合形式如下：其中，就是一个个的弱分...

2019-03-01 15:56:48 884

Someone&的博客