自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Rocky

不积跬步,无以至千里;不积小流,无以成江海

  • 博客(5)
  • 资源 (6)
  • 收藏
  • 关注

转载 Spark 2.0介绍:从RDD API迁移到DataSet API

RDD迁移到DataSetDataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。1、加载文件RDDval rdd = sparkCont

2017-01-23 18:44:58 396

转载 spark 输出结果压缩(gz)

如果不想往下看,可以直接看结果:maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚, 可能是他们没碰到吧。    最近项目的需求,其实很简单,就是将输出结果以.gz的格式压缩,每个压缩包的大小不能超过100M,而且压缩包的名称也

2017-01-23 11:18:55 4661

原创 HIVE 语句执行 中报错:Java heap space

1、报错信息Diagnostic Messages for this Task:Error: Java heap spaceFAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask2、根据提示加大了 HADOOP_HEAP 设置,但是错误依旧;3、

2017-01-23 11:13:40 2794

原创 如何使用shell从一个文件中取出不在另一个文件中的内容

本文展示如何利用shell从一个文件中,(按行)找出不在另一个文件中的内容。#!/bin/bash#@filename checkAddWord.sh#allword.txt         存放总词库(每行一个)#newword.txt         存放新增词(每行一个)#newword.add.txt     在cygwin中执行sh checkAddWord.

2017-01-23 11:05:02 3229

原创 hive中数据去重,union,交集和并集等操作语句总结

insert overwrite table store    select t.p_key,t.sort_word from       ( select p_key,             sort_word ,             row_number()  over(distribute by p_key sort by sort_word) as rn       from sto

2017-01-23 10:59:25 23687

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

大数据与数据挖掘的结合

2014-10-15

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

大数据与神经网络的结合

2014-10-15

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach 大数据与机器学习的结合,大数据与神经网络的结合

2014-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除