数据挖掘
文章平均质量分 86
李元乐
山高李维峰
展开
-
连接物理和数字世界,以数据驱动企业持续增长
数字化转型变得重要且紧急数据驱动型企业的概念以数据生产要素驱动经营管理,实现持续增长和创新发展从农业经济到工业经济,生产要素经历了由土地、劳动力向资本、技术及管理等的演进。数字经济时代催生了以大数据为代表的新型生产要素,企业的经营管理离不开海量数据的支撑。相较于传统生产要素的有限增长和供给,数据具有可复制、可共享、无限增长和供给的特性,可以通过连接物理世界和数字世界,驱动企业向数字化转型升级,进而实现持续增长和创新发展。需要注意的是,数字化转型强调的是运用数字技术,而数据驱动强调是以数据作为关键生产要转载 2020-07-18 16:30:37 · 1285 阅读 · 0 评论 -
数据挖据---机器学习平台之H2O架构/接口/实践
上一章介绍了H2O的使用,这次来学习学习H2O架构接口和实践。1,H2O架构关于H2O架构,很多资料也有说明,这里我们一起来看看官网上的介绍。最上面的是客户层,即接口交互层,H2O支持JavaScript,R,Python,Excel,Tableau,Flow等多种形式的外部交互。下面那个可以理解为H2O的关键引擎层,JVM Components,每个JVM进程被分为三层:语言,算法,核心架构,负责执行引擎,算法引擎,数据引擎,任务处理引擎:Rapids Expression Evaluatio原创 2020-05-24 11:00:02 · 761 阅读 · 0 评论 -
数据挖掘---AutoML平台之H2O
关于AutoML在机器学习ML的实践中,参数是其中一个很重要的环节,学习的初始阶段参数怎么给,是默认值,随机值,还是有特点规律的参数,学习过程中,参数怎么调整,参数规模等等一序列的问题,是ML绕不过去的坑,也是机器学习当中很重要的很乏味很无赖的一个课题。怎么解决这些痛点,怎么能够自动优化参数,减少人工调整参数,对机器学习也是一个不小的挑战。AutoML应运而生,一般是指尽量不通过人来设定超参数,...原创 2019-08-03 17:33:46 · 2411 阅读 · 0 评论 -
数据挖掘---深度学习之TensorFlow(三)
深度学习之TensorFlow学习(三)1,CNN2,RNN3,GANTODO原创 2019-08-03 16:04:51 · 262 阅读 · 0 评论 -
数据挖掘---深度学习之TensorFlow(二)
深度学习之TensorFlow学习(二)重要概念复习:激活函数(Activation Functions)卷积函数(Convolution)池化函数(Pooling)损失函数(Losses)TODO原创 2019-08-03 16:01:52 · 365 阅读 · 0 评论 -
数据挖掘---深度学习之TensorFlow(一)
TensorFlow学习(一)TensorFlow安装TensorFlow基本概念TensorFlow简单例子数学公式TensorFlow安装在centos上面体验,使用的是Anaconda的方式,里面自带了很多默认的学习工具包,不需要在下载,当然没有搞GPU(以前旧版本的python要小心,由于墙的原因,很多在线下载的都用不了,找到下面这个合适的) wget ht...原创 2018-06-10 12:42:37 · 1666 阅读 · 0 评论 -
数据挖掘---分类算法之SOFM算法
生物学研究表明,在人脑感觉通道上,神经元的组织原理是有序排列的,输入模式接近,对应的兴奋神经元也相近。大脑皮层中神经元这种相应特点不是先天形成的,而是后天的学习自组织形成的。 对于某一图形或某一频率的特定兴奋过程是自组织特征映射网中竞争机制的生物学基础。神经元的有序排列以及对外界信息的连续映像在自组织特征映射网中也有反映,当外界输入不同的样本时,网络中哪个位置的神经元兴奋在训练开始时时随机的。原创 2016-10-04 22:35:17 · 7872 阅读 · 1 评论 -
数据挖掘---分类算法之朴素贝叶斯算法
贝叶斯分类是一种统计学分类方法,在分类问题中表现出良好的性能。很明显朴素贝叶斯基于贝叶斯定理,下面来简单复习下贝叶斯定理。在说之前我们来看下条件概率的计算,所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。现在需要计算在事件B发生的情况下,事件A发生的概率。有了这个之后,我们可以对对条原创 2016-10-04 22:19:31 · 1341 阅读 · 0 评论 -
数据挖掘---分类算法之神经网络算法BPN实践
有了上篇的基本理论之后,我们可以尝试去代码实现基本的一个BPN算法。 具体的算法代码,后面给出。就像前面说过的,有几个东西需要调节注意的,学习率和惯性因,初始权值和阈值,收敛误差界值Emin。这几个问题其实是很多类似算法都遇到的问题,细节这里不多说。 除了自己代码实现外,还有很多工具可以帮助我们实现和理解神经网络算法,现在举例说明下。 1原创 2016-08-07 21:13:40 · 1940 阅读 · 1 评论 -
数据挖掘---分类算法之K近邻(KNN)算法
K近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 KNN 算法本身简单有效,它是一种 lazy-learning 算法,分类器不需要使用训练集进行原创 2016-08-31 13:51:27 · 1852 阅读 · 0 评论 -
数据挖掘---分类算法之支持向量机SVM
上篇已经简单的说了下支持向量机的理论,里面有不少公式,需要肯学习的你一步步的推导试一试,说实在的还是挺能考验数学能力的,当年俺老孙就是一步步的推导过。只有这样你才能对这个过程有清晰的认识,才能对这个算法有所体会。 下面来举个例子,所说用支持向量机解决异或问题。这个例子是在一个书上看到的,摘录下面希望能够加深对支持向量机的理解。(部分公式不好编辑,所以直接截图,为了和截图的字体大原创 2016-08-15 14:58:19 · 3764 阅读 · 1 评论 -
数据挖掘---分类算法之支持向量机实践
有了前面两篇的介绍,相信你对支持向量机有了更多的理解。这里我们一起来说说关于支持向量机代码实践那点事。有很多方式可以做到,我们这里还是举例说明下:1,使用libsvm2,使用R3,使用SPSS还有更多的方式,例如mahout,spark MLlib等等。后面有机会都列出来。原创 2016-08-31 13:44:44 · 779 阅读 · 0 评论 -
数据挖掘---分类算法之支持向量机SVM
这篇来说说支持向量机,说实在的,这个是我的最爱,一直比较看好这个算法,而且也是花了不少时间在这个上面,下面一起来复习下。 基于统计学习理论的支持向量机算法是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。与传统统计学相比,统计学习理论(Statistical Learning Theory,SLT)是一种专门原创 2016-08-07 21:26:16 · 2977 阅读 · 3 评论 -
数据挖掘---分类算法之神经网络算法BPN
有段时间没有写了,觉得很有必要继续加油写下去。一直有想梳理下主要的机器学习算法了,做一个从各个主流算法到新兴的算法,都做一番回顾,理论结合代码实践,做一个复习,毕竟温故而知新。顺便说下,什么机器学习,数据挖掘,人工智能,这几个词语很多,也很容易用的模糊了,边界不是很清晰,我也不想做过多的解读与区分,免得弄巧成拙,或者班门弄斧。还是埋头实践吧。 后面的几篇主要从这么几个类别来整理:原创 2016-08-07 20:22:22 · 14032 阅读 · 3 评论 -
Mahout系列之推荐算法-基于物品协同过滤实践
上文已经说明了用户的协同过滤,这篇也来谈谈基于物品的协同过滤。$ mahout recommenditembased -s SIMILARITY_LOGLIKELIHOOD -i /user/hadoop/recommend/recommandtestdata.csv -o /user/hadoop/recommend/result --numRecommendatio原创 2016-02-02 12:55:40 · 3477 阅读 · 0 评论 -
Mahout系列之推荐引擎核心源码
Mahout里面的推荐包括了常见的方法和多种扩充的方法,对推荐的模型做了很好的封装。下面我们就来一起读读源码,读读更健康!下载Mahout,本文用到的是apache-mahout-distribution-0.11.0。项目主要包括的子项目有:项目说明mahout-examples 很多关于Mahout的实例原创 2016-02-06 11:07:06 · 2460 阅读 · 1 评论 -
Mahout系列之推荐算法-基于用户协同过滤
Mahout的一大特色就是包含了推荐算法,里面包括了多种常见的算法,下面我们来分析分析。针对基于用户行为数据的推荐算法一般称为协同过滤算法。协同过滤算法有基于领域(neighborhood-based)的方法,隐语义模型(latent factor model)的方法,基于图的随机游走(random walk on graph)算法。目前用的最多的就是基于领域的方法,基于领域的算法里面主要有基原创 2016-02-02 11:54:06 · 1310 阅读 · 0 评论 -
Mahout系列之核心功能实践
上次已经说到了Mahout的计算项目模块mahout math。这里面包含了很多常用的数学计算或者统计方面的东西,有很多东西可能会用到,所以对这些基础的需要有很好的理解。CommandCommentDetail arff.vector从ARFF文件产生向量 Generate Vectors from an ARFF file or di原创 2016-02-14 16:50:28 · 1715 阅读 · 0 评论 -
Mahout系列之Canopy聚类算法分析
俗话说的好,物以类聚,那么数据呢,也是可以聚一聚的。这个就是我们机器学习中常说的聚类算法。聚类的思想和过程,说起来很简单明了,就是根据某种或者某些特性(比如数据分布),计算或者判断数据之间的相似性,将相似的作为一类,逐步使得属于同一类的数据之间的距离最小,而不同类之间的距离达到最大,这样就认为是较优的聚类方法。聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hie原创 2016-01-29 16:36:49 · 1374 阅读 · 0 评论