大数据
文章平均质量分 53
lzz360
这个作者很懒,什么都没留下…
展开
-
用R解析Mahout用户推荐协同过滤算法(UserCF)
用R解析Mahout用户推荐协同过滤算法(UserCF)RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题翻译 2015-09-25 15:19:33 · 1332 阅读 · 0 评论 -
hdfs 文件权限设计
描述:有三个部门 (app开发小组,web开发小组,数据分析小组)其中app开发小组的数据和web开发小组的数据是相互独立了,数据分析小组有权限分析来自app web两个部门的数据步骤1 创建组groupadd appsgroupadd websgroupadd dw(数据分析小组)2 创建成员useradd -g apps app //创建ap原创 2016-08-14 11:09:34 · 591 阅读 · 0 评论 -
sparkStreaming+flume
spark ***********************import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.s原创 2016-08-11 17:46:38 · 330 阅读 · 0 评论 -
ubuntu 环境下编译 hadoop 2.6.0的简单方法
ubuntu 环境下编译 hadoop 2.6.0的简单方法 由于服务器一般都64位系统,hadoop网站的release版本32位native库不能运行,所以需要自己在编译一下。以下是我采用的一个编译的过程,比较简单,不用下载各种版本及环境配置,通过命令就能自动完成了。系统环境为ubuntuserver 64位版。1、安装JDK,我这里使用的转载 2016-08-11 10:48:21 · 356 阅读 · 0 评论 -
Azkaban-开源任务调度程序(安装篇)
Azkaban-开源任务调度程序(安装篇)字数1166 阅读2318 评论2 喜欢13最近项目迁移到新集群,试试同事推荐的开源任务调度程序-azkaban(阿兹卡班),没看错,就是哈利波特里的阿兹卡班,azikaban主要用来解决hadoop依赖任务的执行,但是它本身支持linux和java程序,因此适合做小项目的任务调度管理程序。Azkaban官网它有三个重要组件:转载 2016-08-31 19:20:04 · 1644 阅读 · 1 评论 -
Flume环境部署和配置详解及案例大全
Flume环境部署和配置详解及案例大全投稿:hebedich 字体:[增加 减小] 类型:转载 时间:2014-08-11 我要评论flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 一、什么转载 2016-08-16 14:05:35 · 761 阅读 · 0 评论 -
spark 调试方法总结
1 日志调试配置 log4j.properties (只显示警告信息)# log4j.rootCategory=INFO, consolelog4j.rootCategory=WARN, console 程序中使用loggerimport org.apache.log4j.Loggerobject TestSpark extends App{val原创 2016-08-14 17:28:09 · 3439 阅读 · 0 评论 -
spark rdd 操作
spark rdd 操作原创 2016-06-13 10:46:00 · 1190 阅读 · 0 评论 -
spark 读取hbase中的数据
import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Scanimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.protobuf.Protob原创 2016-06-24 15:38:59 · 2043 阅读 · 0 评论 -
spark-submit 提交作业到集群
1 IDEA 打包示例代码参考AMPCamp2015之SparkSQL,开发环境使用idea。首先需要将程序打包成jar选择project structure --》artifacts ,由于集群已经有了运行依赖的jar包,打包时可以将这些jar包排除出去,以减小打包后的jar包的大小。点击ok,然后选择build --》build artifacts,转载 2016-08-14 14:56:40 · 4906 阅读 · 0 评论