- 博客(13)
- 资源 (4)
- 收藏
- 关注
转载 以性别预测为例,谈谈数据挖掘中的分类问题
互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。数据挖掘的基本内容首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下:Data mining is the use of efficient te
2016-02-29 12:33:10 917
转载 Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返回一个模型对象,可以使用该对象对新的数据点进行分类。4、使用
2016-02-25 10:47:09 888
转载 Tachyon更名为 Alluxio,并发布1.0版本
【摘要】近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,我们社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio(前Tachyon)起源于我读博期间在 UC Berkeley AMPLab实验室的一个研究项目
2016-02-24 13:47:39 3056 3
转载 Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN),集群管理负责启动executor进程,编写Spark application的人根本不需要知道Spark用的是什么集群管理。
2016-02-24 13:46:56 552
转载 深入理解Apache Flink核心技术
作者:李呈祥 作者简介:Intel BigData Team软件工程师,主要关注大数据计算框架与SQL引擎的性能优化,Apache Hive Committer,Apache Flink Contributor。 责任编辑:仲浩(zhonghao@csdn.net) 文章来源:《程序员》2月期 版权声明:本文为《程序员》原创文章,未经允许不得转载,订阅2016年《程序员》请点击 h
2016-02-23 22:37:32 1787
转载 Spark MLlib Statistics统计
2015-05-11 15:441、Spark MLlib Statistics统计Spark Mllib 统计模块代码结构如下:1.1 列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据,转换成RDD[Vector]类型 val data_path = "/home/jb-huangme
2016-02-22 21:39:21 807
转载 mllib基础
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o
2016-02-22 21:37:15 641
转载 斯坦福大学损失函数推导
1.线性回归CostFunction推导: 在线性回归中,Cost Function是,关于这个公式的推导,首先由一个假设,其中满足高斯分布,.那么根据得出在这里,把看成是随机变量,那么服从高斯分布,,对于给定的X,theta要估计y的分布是怎么样的,极大似然估计函数为:
2016-02-22 18:18:18 1279
转载 斯坦福大学线性回归
本节内容主要包含单变量(One Variable)和求解costfunction的最优值的学习算法—梯度下降法(Gradientdescent)以及多变量(multipleVariable)的线性回归。1. 单变量的线性回归(Linear Regission with onevariable) 监督学习的样本中都含有对于每个输入变量的输出值,通过建立模型并且
2016-02-22 18:17:25 636
转载 斯坦福大学lr
1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)(0叫做负类,1叫做正类)。给定一组数据,标记有特征和类别,数据如(x(i),y(i)),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。 在良性肿瘤和恶性肿瘤的预测中,样本数据如下 上图是用线
2016-02-22 18:16:54 395
转载 转lr
逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函数基础上,加上一个Sigmoid函数进行Norm,把函数值输出在
2016-02-22 17:31:55 520
转载 转载lr spark细节
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication:逻辑回归分类器2、optimization:优化方法,包含了随机梯度、LBFGS两种算法
2016-02-22 17:30:22 1223
转载 spark state(转)
许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要将网站上各“用户会话(user session)”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流计算可以在Spark Streaming中使用updateStateByKey 方法实现。在Spark 1.6 中,我们通过使用新API mapWithState极大地增强对状态流
2016-02-17 20:33:15 988
zkoss开发培训资料
2014-07-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人