SumResort_YangHao-CSDN博客

转载 LSTM介绍

LSTM 能够提升神经网络接受输入信息及训练数据的记忆机制，让输出结果得到大幅度的提升。虽然因为当时的硬件限制不那么广为人知，但近年来包括谷歌在内的一系列公司都开始在深度学习中采用 LSTM。那么 LSTM 到底是什么呢？AI 科技评论今天介绍的这篇文章出自 Google Brain 科学家 Christopher Olah 的博客，AI 科技评论在原文的基础上加入了一些自己的理解，尽量保证这...

2018-07-19 13:57:02 1666

原创 Linux常用命令

1.创建用户挂载在data目录sudo adduser idsudo mv /home/id/ /data1/sudo ln -s /data1/id/ /home/sudo chown -R id:id(group) /data1/idpasswd id

2018-06-29 15:41:28 262

转载 tensorflow rnn代码

一、学习单步的RNN：RNNCell如果要学习TensorFlow中的RNN，第一站应该就是去了解“RNNCell”，它是TensorFlow中实现RNN的基本单元，每个RNNCell都有一个call方法，使用方式是：(output, next_state) = call(input, state)。借助图片来说可能更容易理解。假设我们有一个初始状态h0，还有输入x1，调用call(x1, h0)...

2018-06-22 15:29:35 1473

转载 attention机制

Attention神经科学和计算神经科学中的neural processes已经广泛研究了注意力机制[1,2]。视觉注意力机制是一个特别值得研究的方向：许多动物专注于视觉输入的特定部分，去计算适当的反映。这个原理对神经计算有很大的影响，因为我们需要选择最相关的信息，而不是使用所有可用的信息，所有可用信息中有很大一部分与计算神经元反映无关。一个类似于视觉专注于输入的特定部分，也就是注意力机制已经用于...

2018-06-18 14:11:51 1315

转载马尔科夫链-蒙特卡洛

最近总结了下自己的笔记，发现原来自己还有这个东西，所以再次回顾了下，并简单做以下梳理，文章来自LDA-math-MCMC 和Gibbs Sampling转载连接：https://blog.csdn.net/coder_oyang/article/details/47106093...

2018-06-08 15:00:31 442

转载吴恩达深度学习教程

DeepLearning.ai简介deepLearning.ai 是由吴恩达在Coursera上推出的一个教授深度学习的专题系列课程。整个专题共包括五门课程：01.神经网络和深度学习；02.改善深层神经网络-超参数调试、正则化以及优化；03.结构化机器学习项目；04.卷积神经网络；05.序列模型。课程描述：请允许我引用官网的介绍：如果你想进入人工智能，这个课程专题将会给你带来帮助。深度学习是科技领...

2018-05-07 20:36:33 868

转载深度学习在文本中的应用

引言文本分类这个在NLP领域是一个很普通而应用很广的课题，而且已经有了相当多的研究成果，比如应用很广泛的基于规则特征的SVM分类器，以及加上朴素贝叶斯方法的SVM分类器，当然还有最大熵分类器、基于条件随机场来构建依赖树的分类方法、当然还有普通的BP神经网络分类方法。在传统的文本分类词袋模型中，在将文本转换成文本向量的过程中，往往会造成文本向量维度过大的问题，当然也有其他的压缩了维度的一些分类方法。...

2018-05-07 20:34:17 549

转载 WordVec简介

任何一门语言，都是由一堆的词组成，所有的词，构成了一个词汇表。词汇表，可以用一个长长的向量来表示。词的个数，就是词汇表向量的维度。那么，任何一个词，都可以表示成一个向量，词在词汇表中出现的位置设为1，其它的位置设为0。但是这种词向量的表示，词和词之间没有交集，用处不大。Word2Vec 的训练模型，看穿了，是具有一个隐含层的神经元网络（如下图）。它的输入是词汇表向量，当看到一个训练样本时，对于样本...

2018-04-28 16:19:20 3125

转载文本挖掘基本思路

　在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。1. 词袋模型　　　　在讲向量化与Hash Trick之前，我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中...

2018-04-28 13:24:32 3899 1

原创深度学习和机器学习最优化方法总结

机器学习在应用机器学习算法时，我们通常采用梯度下降法来对采用的算法进行训练。其实，常用的梯度下降法还具体包含有三种不同的形式，它们也各自有着不同的优缺点。　　下面我们以线性回归算法来对三种梯度下降法进行比较。　　一般线性回归函数的假设函数为：hθ=∑nj=0θjxjhθ=∑j=0nθjxj　　对应的能量函数（损失函数）形式为：Jtrain(θ)=1/(2m)∑mi=1(hθ(x(i))−y(i))...

2018-03-12 13:36:16 4304

转载 EM算法

Jensen 不等式我们知道，如果设 f 是定义域为实数的函数，如果对于所有的实数x，f″(x)≥0，那么 f 是凸函数。显然我们的样本x,是有很多属性的，也就是说函数f的输入是一个向量。这时f是凸函数就等价为为f的 hessian 矩阵 H 是半正定的（ H ≥ 0）。begin-补充-hessian矩阵对于一个实值多元函数f(x1,x2,...,xn) ，如果

2018-01-29 16:03:40 288

转载深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却

2017-11-30 15:01:37 349

原创机器学习关键点整理

1.逻辑回归和线性回归：线性回归XXt可能不可逆，但是正则化后加一个矩阵变成可逆的了 2.pca和svd:https://www.zhihu.com/question/38319536 3.为什么要用最小二乘法：在做线性回归的时候，为什么理想的直线，是离每个点的距离的平方和最小，而不能是这条直线离每个点的距离的绝对值之和最小？换言之，我是否...

2017-11-30 15:00:21 578

原创线性回归

1.1 Linear Regression with one variable某个目标量可能由一个或多个变量决定，单变量线性回归就是我们仅考虑一个变量与目标量的关系。例如，我们可以仅考虑房子的面积X与房价y的关系，如下图。通常将已有的可利用的数据成为data set or training set。首先我们定义出线性的hypothesis function h，然

2017-11-28 21:07:51 583

原创 l1和l2正则区别

引入：范数与正则项所谓范数，就是某种抽象的长度。范数满足通常意义上长度的三个基本性质：非负性：∥x⃗ ∥⩾0∥x→∥⩾0；齐次性：∥c⋅x⃗ ∥=∣c∣⋅∥x⃗ ∥∥c⋅x→∥=∣c∣⋅∥x→∥；三角不等式：∥x⃗ +y⃗ ∥⩽∥x⃗ ∥+∥y⃗ ∥∥x→+y→∥⩽∥x→∥+∥y→∥。在这里，我们需要关注的最主要是范数的「非负性」。我们刚才讲，损失函数通

2017-11-23 14:48:25 1334

原创机器学习算法比较

机器学习算法比较本文主要回顾下几个常用算法的适应场景及其优缺点！机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accura

2017-11-21 12:37:43 510

转载机器学习常用指标

阅读目录1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC5. 参考内容　　考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True posi

2017-11-21 12:32:34 510

转载多重共线性问题的几种解决方法

摘要：在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X1，X2，……，Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。所谓多重共线性是

2017-11-21 11:37:14 7105

原创特征工程

1.为什么要特征组合：从统计的角度解释，基本特征仅仅是真实特征在低位空间的分布，不足以描述真实分布。加入特征组合是为了在高维空间更好的拟合真实分布，是预测更加准确。2.特征工程：作者：知乎用户链接：https://www.zhihu.com/question/28641663/answer/41653367来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转

2017-11-14 17:30:49 423

原创 hadoop streaming参数整理

1.Streaming简介Hadoop Streaming 是Hadoop提供的一个编程工具，Streamining框架允许任何可执行文件或者脚本文件作为Mapper和Reducer在Hadoop MapReduce中使用，方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大。Streamining的原理：mapper和reducer会从标准输入中读取数据

2017-09-21 17:01:08 1379 1

原创台湾大学机器学习技法笔记整理

1.支持向量机：http://blog.csdn.net/huang1024rui/article/details/481842592.dual支持向量机：http://blog.csdn.net/huang1024rui/article/details/482867773.kernel支持向量机：http://blog.csdn.net/red_stone1/article/

2017-09-21 16:56:26 509

原创台湾大学机器学习基石笔记整理

1.机器学习定义和PLA：http://www.cnblogs.com/HappyAngel/p/3456762.html2.机器学习分类：http://blog.csdn.net/SteveYinger/article/details/511157313.机器学习的可行性：https://www.jianshu.com/p/cce6309cf07c4.机器学习预测函数数量...

2017-09-21 16:55:26 565

原创逻辑回归原理

1. 构造预测函数h(x)1) Logistic函数（或称为Sigmoid函数），函数形式为：对于线性边界的情况，边界形式如下：其中，训练数据为向量最佳参数构造预测函数为：函数h(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为： P(y=1│x;θ)=h_θ (x)

2017-06-04 15:19:26 1150

原创 java中synchronized和lock底层原理

JVM中锁的优化：简单来说在JVM中monitorenter和monitorexit字节码依赖于底层的操作系统的Mutex Lock来实现的，但是由于使用Mutex Lock需要将当前线程挂起并从用户态切换到内核态来执行，这种切换的代价是非常昂贵的；然而在现实中的大部分情况下，同步方法是运行在单线程环境（无锁竞争环境）如果每次都调用Mutex Lock那么将严重的影响程序的性能。不过在jd

2017-06-04 11:20:31 9542 3

转载多种神经网络的区别

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构的区别先说DNN，从结构上来说他和传统意义上的NN（神经网络）没什么区别，但是神经网络发展时遇到了一些瓶颈问题。一开始的神经元不能表示异或运算，科学家通过增加网络层数，增加隐藏层可以表达。并发现神经网络的层数直接决定了它对现实的表达能力。但是随着层数的增加会出现局部函数越来越容易出现局部最

2017-06-03 20:56:03 6133 1

原创梯度下降和牛顿法

下面的h(x)是要拟合的函数，J(theta)损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数，j是参数的个数。1、批量梯度下降的求解思路如下：（1）将J(theta)对theta求偏导，得到每个theta对应的的梯度（2）由于是要最小化风险函数

2017-06-03 20:41:21 801

转载 pca主成成分分析

PCA（主成分分析）算法：主要用于数据降维，保留了数据集中对方差贡献最大的若干个特征来达到简化数据集的目的。实现数据降维的步骤：1、将原始数据中的每一个样本用向量表示，把所有样本组合起来构成一个矩阵，通常需对样本矩阵进行处理，得到中性化样本矩阵2、求样本矩阵的协方差矩阵3、求协方差矩阵的特征值和特征向量4、将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵。并根据指定

2017-06-03 19:56:43 1007

转载机器学习中的损失函数总结

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面

2017-06-03 18:20:19 2698

转载支持向量机讲解

支持向量机是属于原创性、非组合的具有明显直观几何意义的分类算法，具有较高的准确率。使用SVM算法的思路：（1）简单情况，线性可分情况，把问题转化为一个凸优化问题，可以用拉格朗日乘子法简化，然后用既有的算法解决；（2）复杂情况，线性不可分，用核函数将样本投射到高维空间，使其变成线性可分的情形，利用核函数来减少高纬度计算量。一、SVM相关基本概念

2017-06-02 11:21:08 532

原创贝叶斯网络总结

贝叶斯定理：每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是因为这个定理多高深，而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率： p(A/B) 表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为

2017-06-02 10:43:00 1860

原创决策树算法总结

决策树模型在监督学习中非常常见，可用于分类（二分类、多分类）和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensembel 模型更为常见，但是“完全生长”决策树因为其简单直观，具有很强的解释性，也有广泛的应用，而且决策树是tree ensemble 的基础，值得好好理解。一般而言一棵“完全生长”的决策树包含，特征选择、决策树构建、剪枝三

2017-06-01 15:56:35 1577

原创机器学习距离计算

1.闵可夫斯基距离 (Minkowski Distance)设有两个n维向量A(x1,x2,x3,….xn)和B(y1,y2,y3,….yn)间的闵可夫斯基距离定义为：其中p是一个参数。当p=1时，就是曼哈顿距离；当p=2时，就是欧式距离；当p->无穷时，就是切比雪夫距离。2.欧式距离（Euclidean Distance）

2017-06-01 15:20:59 718

原创机器学习聚类算法

（1）层次聚类：层次聚类算法：自下而上聚合层次聚类方法(或凝聚层次聚类)。这种自下而上策略就是最初将每个对象(自身)作为一个簇，然后将这些簇进行聚合以构造越来越大的簇，直到所有对象均聚合为一个簇，或满足一定终止条件为止。自顶向下分解层次聚类方法(或分裂层次聚类)。这种策略的作法与自下而上策略的作法相反。它首先将所有对象看成一个簇的内容，将其不断分解以使其变成越来越小但个数越来越多的小簇

2017-06-01 13:38:04 869

原创 java内存模型总结

首先谈一下内存一致性模型：顺序一致性内存模型是一个被计算机科学家理想化了的理论参考模型，它为程序员提供了极强的内存可见性保证。顺序一致性内存模型有两大特性：一个线程中的所有操作必须按照程序的顺序来执行。（不管程序是否同步）所有线程都只能看到一个单一的操作执行顺序。在顺序一致性内存模型中，每个操作都必须原子执行且立刻对所有线程可见。因为每个线程有自己私有的内存空间，很有可能和内存不一

2017-05-28 17:47:25 275

原创各种锁的实现代码

1.可能导出死锁，串行没问题class LockOne implements Lock {private boolean[] flag = new boolean[2];public void lock() { flag[i] = true; while (flag[j]) {} }2.保证互斥，串行有问题public class LockTwo impleme

2017-05-28 17:30:51 923

原创 ForkJoin多核并行框架总结

1.阿姆达尔定律定义一个程序（或者一个算法）可以按照是否可以被并行化分为下面两个部分：可以被并行化的部分不可以被并行化的部分阿姆达尔定律给出了任务在固定负载的情况下，随着系统资源的提升，执行速度的理论上限。以计算机科学家Gene Amdahl命名。p为串行程序所在比例· · Slatency(s)=1(1−p)+ps· · 2. Fork Join

2017-05-28 16:01:03 618

SumResort_LChaowei的博客