2017年01月_翔飞天宇

09月 08月 07月 06月 03月 02月 01月

转载 Spark 2.0介绍：从RDD API迁移到DataSet API

RDD迁移到DataSetDataSet API将RDD和DataFrame两者的优点整合起来，DataSet中的许多API模仿了RDD的API，虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中，下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。1、加载文件RDDval rdd = sparkCont

2017-01-23 18:44:58 396

转载 spark 输出结果压缩（gz）

如果不想往下看，可以直接看结果：maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩，没错。就只这么一行简单的代码实现了gz压缩，但是为什么网上一直没找到呢，这个我不太清楚，可能是他们没碰到吧。最近项目的需求，其实很简单，就是将输出结果以.gz的格式压缩，每个压缩包的大小不能超过100M,而且压缩包的名称也

2017-01-23 11:18:55 4661

原创 HIVE 语句执行中报错：Java heap space

1、报错信息Diagnostic Messages for this Task:Error: Java heap spaceFAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask2、根据提示加大了 HADOOP_HEAP 设置，但是错误依旧；3、

2017-01-23 11:13:40 2794

原创如何使用shell从一个文件中取出不在另一个文件中的内容

本文展示如何利用shell从一个文件中，（按行）找出不在另一个文件中的内容。#!/bin/bash#@filename checkAddWord.sh#allword.txt 存放总词库（每行一个）#newword.txt 存放新增词（每行一个）#newword.add.txt 在cygwin中执行sh checkAddWord.

2017-01-23 11:05:02 3229

原创 hive中数据去重，union，交集和并集等操作语句总结

insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn from sto

2017-01-23 10:59:25 23687

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

大数据与数据挖掘的结合

2014-10-15

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

大数据与神经网络的结合

2014-10-15

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach 大数据与机器学习的结合，大数据与神经网络的结合

2014-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Spark 2.0介绍：从RDD API迁移到DataSet API

转载 spark 输出结果压缩（gz）

原创 HIVE 语句执行 中报错：Java heap space

原创 如何使用shell从一个文件中取出不在另一个文件中的内容

原创 hive中数据去重，union，交集和并集等操作语句总结

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

空空如也

原创 HIVE 语句执行中报错：Java heap space

原创如何使用shell从一个文件中取出不在另一个文件中的内容