博客专栏  >  互联网   >  大数据处理

大数据处理

基于分布式的大数据统计分析等

关注
29 已关注
36篇博文
  • hadoop集群lzo的安装

    主要步骤: 1,安装和更新gcc、ant(系统已经安装的话,略去下面步骤) yum -y install gcc gcc-c++ autoconf automake wget http://...

    2012-01-05 23:01
    3132
  • MapReduce 编程模型在日志分析方面的应用

    MapReduce 编程模型简介 随着信息化的进一步加深,在各个领域,如电信、交通、金融、零售、航天、医药等,数据量级都呈现快速增长趋势。如何高效并且无误地存储、分析、理解以及利用这些大规模数据,成...

    2012-01-10 14:31
    1606
  • Facebook数据仓库揭秘:RCFile高效存储结构

    本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 IC...

    2012-02-22 22:52
    1702
  • Mapreduce实例-TopK

    public class TopK extends Configured implements Tool { public static class TopKMapper extends M...

    2013-09-05 19:24
    2392
  • Mapreduce实例-sort全排序

    public class SamplerInputFormat extends FileInputFormat { static final String PARTITION_FILENAM...

    2013-09-05 19:32
    3075
  • Mapreduce实例-分组排重(group by distinct)

    实现一下几个类,代码太多,列了下主要代码,可根据排重数据的特征判读是否需要添加combiner来提速。 public class GroupComparator implements RawCompa...

    2013-09-05 22:17
    3586
  • Hadoop 新 MapReduce 框架 Yarn 详解

    Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处...

    2013-10-26 18:45
    2121
  • MetaQ集群安装测试

    1,下载https://github.com/killme2008/Metamorphosis/tree/metamorphosis-all-1.4.6.2,如果不想自己编译可以直接下载http://...

    2014-02-26 12:43
    3205
  • Mapreduce实例-JOIN

    package com.sohu.tv.amstat.mr.test; import java.io.IOException; import java.util.ArrayList; import...

    2017-07-28 13:55
    399
  • HIVE全部函数详解

    函数名 含义及实例 abs abs(x) - returns the absolute value of x Example:   > SELECT abs(0) FROM s...

    2017-09-13 18:04
    5453
  • SPARK各种提交方式总结

    1,Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export...

    2017-03-21 18:24
    2977
  • Spark MLlib之线性回归

    回归 RegressionMetrics mllib spark

    2017-03-22 14:12
    2058
  • Spark MLlib之KMeans

    Spark MLlib之KMeansimport org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; impor...

    2017-03-22 17:46
    933
  • Spark MLlib之协同过滤

    Spark MLlib 协同过滤实例

    2017-03-23 14:16
    1250
  • Hive ORC数据格式的MapReduce Shuffle

    1,mr代码如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configu...

    2017-03-03 17:01
    795
  • hive ORC 文件存储格式

    ORC file format,它的全名是Optimized Row Columnar (ORC)  file format。使用ORC文件格式提升Hive读、写与处理数据的性能。    存储方式为数...

    2015-10-27 15:13
    2465
  • Redis集群搭建与应用

    1,选择两台服务器2,安装redis     wget http://download.redis.io/releases/redis-2.8.12.tar.gz     tar -xvf redis...

    2016-01-28 16:54
    1961
  • 数据交换工具DataX使用

    1,下载svn co http://code.taobao.org/p/datax2,安装根据服务器安装软件情况可能需要安装下面软件yum install antyum install gcc-c++...

    2016-07-22 19:31
    13672
  • Mongodb在Windows下安装及配置

    1.下载mongodb的windows版本,有32位和64位版本,根据系统情况下载,下载地址:http://www.mongodb.org/downloads2.解压缩至E:/mongodb即可3.创...

    2011-01-08 19:44
    70574
  • R语言绘图

    安装venneuler包install.packages("venneuler")选择china镜像#载入venneuler包library(venneuler)vd <- venneuler(c(A...

    2015-10-22 16:21
    2167

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部