AI_BigData_WH-CSDN博客

原创神经网络 II：神经元模型

人工神经网络的生物原型是大脑，人脑中的神经网络是一个非常复杂的组织，其基本组成单位是神经元（神经细胞），成人的大脑中估计有1000亿个神经元之多。十九世纪末二十世纪初，在解剖学家、生物学家、医学家的共同努力下，神经元的组成结构便被研究清楚，一个神经元主要由四部分构成：细胞体：它是神经元的本体，内有细胞核和细胞质，完成普通细胞的生存功能。树突：它有大量的分枝，多达10310310^3数量级，...

2017-10-24 10:02:01 4089

原创神经网络 I：概述及发展

人脑是如何工作的？人类能否制作模拟人脑的人工神经元？多少年以来，各类科学家试图从医学、生物学、生理学、哲学、信息学、计算机科学、认知学、组织协同学等各个角度认识并解答上述问题。在寻找上述问题答案的研究过程中，逐渐形成了一个新兴的多学科交叉技术领域，称之为“神经网络”。神经网络的研究涉及众多学科领域，这些领域互相结合、相互渗透并相互推动。

2017-10-23 10:06:45 14453

原创降维-多维尺度法（MDS）

多维尺度法（Multidimensional Scaling，MDS）是一种经典的数据降维方法，是当我们仅能获得样本之间的相似性矩阵时，如何由此来重构它们的欧几里德坐标，即只知道高维空间中的样本之间的距离，基于此重构这些样本在低维空间的相对位置！

2017-10-15 17:19:22 8375

原创降维-主成分分析(PCA)

主成分分析（Principal Components Analysis）是由Hotelling于1933年首先提出的。由于多个纬度变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。当这些纬度变量的第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个提取的过程，……，直到提取足够多的信息为止。这就是主成分分析的思想。

2017-10-10 21:28:06 2500

随着大数据和人工智能热潮的相继而来，促使机器学习近些年也火的一塌糊涂。机器学习方法已在生产、科研和生活中有着广泛应用，而集成学习则是机器学习的首要热门方向。集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习有两个分支，一个是Boosting派系，另一个是Bagging流派，二者的区别主要如下：Boosting–假定原

2017-10-02 15:33:43 5954

原创乘幂法求矩阵的特征值及特征向量

在n非常大时，直接求解特征值及其对应的特征向量开销会很大，因此可以用乘幂法解其数值。

2017-09-27 21:11:06 17836 6

原创机器学习算法-PageRank（排序）

Larry Page于1998年提出了PageRank，并在斯坦福大学攻读计算机科学博士学位期间，遇到了Sergey Brin，两人于1998年合伙创立Google，并将PageRank应用在Google搜索引擎的检索结果排序上，该技术也是Google早期最关键的核心技术，已被成功申请专利。

2017-09-24 19:00:07 2947

原创机器学习算法-层次聚类AGNES

层次凝聚的代表是AGNES(AGglomerative NESting)算法。AGNES 算法最初将每个对象作为一个簇，然后这些簇根据某些准则被一步步地合并。两个簇间的相似度有多种不同的计算方法。聚类的合并过程反复进行直到所有的对象最终满足簇数目。

2017-09-23 21:08:02 22969 5

原创深度学习优化方法：梯度下降法及其变形

深度学习在许多情况下都涉及优化，在诸多的优化问题中最难得就是深度神经网络的训练：寻找深度神经网络上的一组参数θ，它能显著地降低代价函数J(θ)。J(θ)构成一个曲面或者曲线，我们的目的是找到该曲面的最低点。根据前面介绍的最速优化原理可知为了快速找到到最优的参数θ，需要沿着整个训练集的梯度方向下降。

2017-09-17 21:42:34 1856

原创机器学习算法-朴素贝叶斯

贝叶斯定理特别好用，但并不复杂，它解决了生活中经常碰到的问题：已知某条件下的概率，如何得到两条件交换后的概率。贝叶斯分类法基于贝叶斯定理，是统计学分类方法，它可以基于当前条件预测样本的类隶属关系概率，如一个给定元组属于一个特定类的概率。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值，这一假定称为类条件独立性。

2017-09-17 20:53:40 1037

原创机器学习算法-DBSCAN聚类

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的空间数据库中发现任意形状的聚类。

2017-09-12 20:38:57 1986

原创模拟退火算法

模拟退火其实也是一种贪心算法，但是它的搜索过程引入了随机因素。在迭代更新可行解时，以一定的概率来接受一个比当前解要差的解，因此有可能会跳出这个局部的最优解，达到全局的最优解。

2017-09-12 12:17:16 39312 9

原创机器学习相似度度量

在机器学习中，无论是分类问题、聚类问题或降维问题，经常需要度量不同样本之间的相似性。不过如何友好地表征不同样本之前的相似性？通常采用的方法就是计算样本间的“距离”。距离计算方法有很多，对于实际遇到的问题到底采用什么样的方法来计算距离是很讲究的，因为相似性度量的好坏很多时候直接关系到原始问题的求解结果。为了加深大家对各个距离方法的理解，本文就对常用的相似性度量策略作一个总结，希望对各位后续处理机器学习问题有所帮助。

2017-09-11 21:54:40 2023

原创深度学习常用激活函数

在感知器模型、神经网络模型、深度学习模型中均会看见激活函数的声影。激活函数又被称为转移函数、激励函数、传输函数或限幅函数，其作用就是将可能的无限域变换到一指定的有限范围内输出，这类似于生物神经元具有的非线性转移特性。常用的激活函数有：线性函数、斜坡函数、阶跃函数、符号函数、Sigmoid函数、双曲正切函数、Softplus函数、Softsign函数、Relu函数及其变形、Maxout函数等。

2017-09-10 21:57:53 5075

原创降维-线性判别分析（LDA）

线性判别分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，1936年由Ronald Fisher首次提出，并在1996年由Belhumeur引入模式识别和人工智能领域。

2017-09-10 14:32:01 2764

原创局部加权线性回归

局部加权回归(Locally Weighted Linear Regression，LWR)是一种非参数学习方法–在预测新样本值时候每次都会重新训练数据得到新的参数值，也就是说每次预测新样本都会依赖训练数据集合，所以每次得到的参数值是不确定的。

2017-09-10 11:39:46 2456

原创遗传算法

遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存，优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出，其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。

2017-09-09 22:20:13 5942 1

原创机器学习算法-逻辑回归（LR）

虽说线性回归无法直接用于分类预测，但可以对其加层映射：将连续无穷输出映射到指定的有限输出。逻辑回归(Logistic Regression, LR)便是基于此思想在线性回归的结果上加上一个逻辑函数，将连续输出映射到$[0,1]$输出。逻辑回归是统计学习中的经典分类方法，通过历史数据的表现对未来结果发生的概率进行预测分类，概率大于一定阈值，输出为1，否则输出为0。

2017-09-09 21:57:02 1246

原创机器学习算法-决策树（二）

决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。分类与回归树CART 模型最早由Breiman 等人提出，也已经在统计领域和数据挖掘技术中普遍使用。

2017-09-09 09:50:48 1507

原创机器学习算法-决策树（一）

什么是决策树？类似于流程图的树结构；每个内部节点表示在一个属性上的测试；每个分枝代表一个测试输出；每个树叶节点存放一个类编号。如何使用决策树分类？给定一个类标号未知的元组X，在决策树上测试元组的属性值，跟踪一条由根到叶节点的路径，叶节点存放该元组的类预测。决策树容易转换为分类规则。

2017-09-08 18:15:01 1325

原创机器学习算法-Adaboost

1995年，Freund and Schapire改进了Boosting算法，取名为Adaboost算法。AdaBoost算法的调整主要是：1. 使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数据样本上；　　2. 将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。

2017-09-08 12:29:05 1646 1

原创机器学习算法-kMeans

k-Means算法是划分聚类方法的一种，对于一个有n个对象的数据集，给定k值，算法首先给出一个初始的划分，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。

2017-09-07 09:00:38 793

原创 CentOS7利用pip快速安装TensorFlow

目前比较成熟的CentOS应该是6.X版本，不过6系列的Python版本较低，还是2.6，对TensorFlow不支持。目前Python2.7与Python3.5对TensorFlow的支持较好。自己手动升级，会遇到各种问题，费时费力。据了解CentOS7已出，而且自带的Python版本为2.7.5，GUI做的也还不错，于是索性就直接转到此版本。

2017-09-06 14:05:23 7759

原创机器学习算法-kNN

kNN算法是k近邻分类(k-nearest neighbor classification)算法的简称。基本流程是从训练集中找到和新数据最接近的k条记录，然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素：训练集、距离或相似的衡量、k的大小。

2017-09-05 20:20:14 947

AI_BigData_WH的博客