自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据分析师-酷峰中行的博客

专注于大数据分析挖掘

  • 博客(8)
  • 收藏
  • 关注

原创 Spark2 DataFrameStatFunctions探索性数据统计分析

相关系数val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]df.stat.co

2016-12-01 16:47:01 1266

原创 APP数据分析体系

APP的数据指标体系主要分为五个维度:用户规模与质量、参与度分析、渠道分析、功能分析及用户属性分析。  1.用户规模和质量维度主要是分析用户规模指标,这类指标一般为产品考核的重点指标;  2.参与度分析主要分析用户的活跃度;  3.渠道分析主要分析渠道推广效果;  4.功能分析主要分析功能的活跃情况、页面访问路径以及转化率;  5.用户属性分析主要分析用户特征。一、用户

2016-12-01 13:54:31 1333

原创 Spark2 加载保存文件,数据文件转换成数据框dataframe

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafile drwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao -rw-r--r-- 3 wangx

2016-12-01 09:57:26 1256

原创 Spark2 DataSet聚合操作

import org.apache.spark.sql.functions._data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+

2016-12-01 09:24:31 802

原创 Spark2 feature Bucketizer之将连续数据离散化到指定的范围区间

import org.apache.spark.ml.feature.Bucketizer// Double.NegativeInfinity:负无穷;Double.PositiveInfinity:正无穷 // 分为10个组:[负无穷,-5),[-5,-4),[-4,-3.5),[-3.5,-0.5),[-0.5,0),[0,0.5),[0.5,2),[2,3.5),[3.5,4),[4,正无穷

2016-11-30 21:29:11 5438

原创 Spark2 机器学习之决策树分类Decision tree classifier

分类决策树代码import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.a

2016-11-30 19:50:58 4559

原创 Spark2 ML包,机器学习示例数据Affairs

// affairs:一年来婚外情的频率 // gender:性别 // age:年龄 // yearsmarried:婚龄 // children:是否有小孩 // religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) // education:学历 // occupation:职业(逆向编号的戈登7种分类) // rati

2016-11-30 19:45:50 822

原创 游戏大数据分析--游戏玩家

游戏玩家1 新增玩家1.1 新增设备激活:当日新增加的激活设备量。新增玩家账户:当日新增加的玩家帐户数1.2 玩家转化:安装游戏的玩家中(即激活设备)有注册账户的玩家比例,1人多次注册,只记1次有效转化。例如:共5台激活设备,其中3台每人1次注册,1台没有注册,1台注册了3次账户,共注册了6个不同账户;注册转化率=(3+1)/5=80%,而不是用6次注册/5台设备1.3 单设备账户

2016-11-30 16:48:14 6874 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除