自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (4)
  • 收藏
  • 关注

转载 以性别预测为例,谈谈数据挖掘中的分类问题

互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。数据挖掘的基本内容首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下:Data mining is the use of efficient te

2016-02-29 12:33:10 917

转载 Spark MLlib知识点学习整理

MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返回一个模型对象,可以使用该对象对新的数据点进行分类。4、使用

2016-02-25 10:47:09 888

转载 Tachyon更名为 Alluxio,并发布1.0版本

【摘要】近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,我们社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio(前Tachyon)起源于我读博期间在 UC Berkeley AMPLab实验室的一个研究项目

2016-02-24 13:47:39 3056 3

转载 Spark:Yarn-cluster和Yarn-client区别与联系

我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN),集群管理负责启动executor进程,编写Spark application的人根本不需要知道Spark用的是什么集群管理。

2016-02-24 13:46:56 552

转载 深入理解Apache Flink核心技术

作者:李呈祥 作者简介:Intel BigData Team软件工程师,主要关注大数据计算框架与SQL引擎的性能优化,Apache Hive Committer,Apache Flink Contributor。 责任编辑:仲浩(zhonghao@csdn.net) 文章来源:《程序员》2月期 版权声明:本文为《程序员》原创文章,未经允许不得转载,订阅2016年《程序员》请点击 h

2016-02-23 22:37:32 1787

转载 Spark MLlib Statistics统计

2015-05-11 15:441、Spark MLlib Statistics统计Spark Mllib 统计模块代码结构如下:1.1 列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。    //读取数据,转换成RDD[Vector]类型    val data_path = "/home/jb-huangme

2016-02-22 21:39:21 807

转载 mllib基础

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o

2016-02-22 21:37:15 641

转载 斯坦福大学损失函数推导

1.线性回归CostFunction推导:              在线性回归中,Cost Function是,关于这个公式的推导,首先由一个假设,其中满足高斯分布,.那么根据得出在这里,把看成是随机变量,那么服从高斯分布,,对于给定的X,theta要估计y的分布是怎么样的,极大似然估计函数为:    

2016-02-22 18:18:18 1279

转载 斯坦福大学线性回归

本节内容主要包含单变量(One Variable)和求解costfunction的最优值的学习算法—梯度下降法(Gradientdescent)以及多变量(multipleVariable)的线性回归。1.      单变量的线性回归(Linear Regission with onevariable)        监督学习的样本中都含有对于每个输入变量的输出值,通过建立模型并且

2016-02-22 18:17:25 636

转载 斯坦福大学lr

1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)(0叫做负类,1叫做正类)。给定一组数据,标记有特征和类别,数据如(x(i),y(i)),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。  在良性肿瘤和恶性肿瘤的预测中,样本数据如下 上图是用线

2016-02-22 18:16:54 395

转载 转lr

逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函数基础上,加上一个Sigmoid函数进行Norm,把函数值输出在

2016-02-22 17:31:55 520

转载 转载lr spark细节

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html  本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication:逻辑回归分类器2、optimization:优化方法,包含了随机梯度、LBFGS两种算法

2016-02-22 17:30:22 1223

转载 spark state(转)

许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要将网站上各“用户会话(user session)”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流计算可以在Spark Streaming中使用updateStateByKey 方法实现。在Spark 1.6 中,我们通过使用新API mapWithState极大地增强对状态流

2016-02-17 20:33:15 988

Effective Java中文

这是一个写好应用的外国产品,帮助找到线上应用存在的error。包括返回错误异常等。

2019-05-07

Zookeeper 在携程的使用和场景

Zookeeper 在携程的使用和场景,生产线上的正式场景例子。引导我的zookeeper的系列文章

2015-03-24

zkoss开发培训资料

zkoss开发培训资料,和大家分享,仅为帮java web开发人员减轻开发压力,我也是java web开发,为了做效果好的界面,曾经深受过easyui和extjs深深的恶心过。根据项目中辛苦整理的培训文档,转载请注明下载地址,如果有需要源码可以联系我。

2014-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除