博客专栏  >  互联网   >  大数据处理

大数据处理

基于分布式的大数据统计分析等

关注
22 已关注
26篇博文
  • SPARK各种提交方式总结

    1,Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export...

    2017-03-21 18:24
    896
  • Spark MLlib之线性回归

    回归 RegressionMetrics mllib spark

    2017-03-22 14:12
    702
  • Spark MLlib之KMeans

    Spark MLlib之KMeansimport org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; impor...

    2017-03-22 17:46
    447
  • Spark MLlib之协同过滤

    Spark MLlib 协同过滤实例

    2017-03-23 14:16
    681
  • Hive ORC数据格式的MapReduce Shuffle

    1,mr代码如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configu...

    2017-03-03 17:01
    378
  • hive ORC 文件存储格式

    ORC file format,它的全名是Optimized Row Columnar (ORC)  file format。使用ORC文件格式提升Hive读、写与处理数据的性能。    存储方式为数...

    2015-10-27 15:13
    2134
  • Redis集群搭建与应用

    1,选择两台服务器2,安装redis     wget http://download.redis.io/releases/redis-2.8.12.tar.gz     tar -xvf redis...

    2016-01-28 16:54
    1626
  • 数据交换工具DataX使用

    1,下载svn co http://code.taobao.org/p/datax2,安装根据服务器安装软件情况可能需要安装下面软件yum install antyum install gcc-c++...

    2016-07-22 19:31
    7805
  • Mongodb在Windows下安装及配置

    1.下载mongodb的windows版本,有32位和64位版本,根据系统情况下载,下载地址:http://www.mongodb.org/downloads2.解压缩至E:/mongodb即可3.创...

    2011-01-08 19:44
    68956
  • R语言绘图

    安装venneuler包install.packages("venneuler")选择china镜像#载入venneuler包library(venneuler)vd <- venneuler(c(A...

    2015-10-22 16:21
    1903
  • R语言的数据结构

    R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表1 标量标量是只含一个元素的向量,例如a2 向量R中的向量可以理解为一维的数组,每个元素的mode必须相同.函数c,是组合函数...

    2015-10-22 11:55
    2052
  • Storm初体验

    Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解跟多请自己google,安装过程也请自己搜索。      做了一个简单的例子package maps...

    2014-01-09 18:21
    2611
  • spark集群安装

    这里是结合hadoop2.0使用的1,download :http://spark.incubator.apache.org/downloads.html选择prebuilt:中hadoop2的下载2...

    2014-02-10 19:00
    2764
  • Hadoop集群机架感应配置

    首先在core-site.xml中配置如下参数:    topology.script.file.name    /opt/hadoop/bin/rackawareness.py     rackaw...

    2012-10-05 21:21
    2106
  • mapreduce程序reduce输出控制

    1,在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法 public...

    2012-02-25 22:01
    4039
  • hive UDF实现一个字符串解码函数

    其实hive的udf 是比较容易实现的,只需要继承UDF,实现其evaluate()方法,代码如下。 @Description(name = "decoder_url", value = "_F...

    2012-07-26 15:31
    4211
  • HIVE UDAF和UDTF实现group by后获取top值

    先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下: public class Top4GroupBy extends UDAF {     //定义一个对...

    2012-07-26 14:52
    3665
  • Mapreduce中的RCFile输入RCFileInputFormat实现及其应用

    基于旧的mapreduce的api的输入格式在hive中已有实现,在org.apache.hadoop.hive.ql.io下,下面代码是根据其源码自己实现的新mapreduce api接口。上代码:...

    2012-08-26 20:11
    4248
  • Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用

    自定义实现RCFileOutputFormat.java import java.io.IOException; import org.apache.hadoop.conf.Configuratio...

    2012-08-26 20:39
    4381
  • Hbase基于Mapreduce的编程

    小试牛刀,将mapreduce的输出结果保存到大型分布式数据库中HBase中,一个例子,求各url的访问pv数据,由于用到rcfile格式需要导入hive-exce包,还需要加载hbase包,如果这两...

    2012-08-26 20:50
    2581

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部