自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(7)
  • 收藏
  • 关注

转载 数据挖掘平台示例

(一)鸢尾花聚类案例背景聚类分析是数据挖掘中常用的算法,本文将通过鸢尾花数据展示聚类算法在本平台中的使用方式。本案例,主要涉及归一化与kmeans聚类两个算法。数据鸢尾花数据集(IRIS)是一个经典的数据集。其中有150个样本,我们目标是分成三类,分别是山鸢、变色鸢尾、维基尼亚鸢。数据...

2018-10-11 10:26:00 221

转载 oozie5.0.0 运行spark action问题解决过程

前沿在本人安装完oozie5.0之后,运行了自带的mapreduce,还有spark的示例,spark运行模式采用yarn cluster模式,能够运行成功。当初安装完oozie之后的hadoop的配置为<value>*=/etc/hadoop/conf</value&g...

2018-08-06 18:42:00 1402

转载 oozie-5.0.0安装部署

1.下载oozie5.01.1 安装基础环境oozie5.0.0的编译安装环境需求如下:System Requirements:Unix box (tested on Mac OS X and Linux)Java JDK 1.8+Maven 3.0.1+Hadoop 2.6....

2018-07-27 17:33:00 976

转载 spark on yarn参数设置

前言上次提交任务都是采用默认参数提交的,结果运行时查看计算机状况使用的,没有最大限度的使用到计算机资源,于是这次提交任务就简单的了解了一下参数设置方面的问题,做个简单的记录。本文spark是提交到yarn上执行的,所有仅限于spark on yarn 运行模式。问题查看spark官网,提...

2018-04-25 17:07:00 1562

转载 spark 创建数据源(二) 从HBase读写数据

1 基于spark提供的方法通过sparkcontent提供的方法可以创建RDD格式的数据,DataFrames格式数据好像没有提供方法创建,如果需要在spark sql中使用DataFrames格式的数据需要通过创建RDD数据然后转换为DF格式。要对hbase进行读写首先需要添加hbas...

2018-04-12 13:44:00 359

转载 spark 创建数据源(一) 常规创建

从文件 转载于:https://my.oschina.net/u/3825598/blog/1794505

2018-04-12 13:42:00 169

转载 idea中spark工程创建(scala+sbt)

1.前期准备安装java、scala、idea等必要软件2.idea中安装scala插件因为spark是使用scala语言开发的,虽然提供了java、python等语言客户端,但使用scala语言开发是最简单、易用、稳定的。所有选择scala开发。在idea中开发scala需要安装sca...

2018-04-04 14:26:00 240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除