自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 [转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具

转自http://www.dataguru.cn/forum.php?mod=viewthread&tid=286174随着互联网的快速发展,涌现出了一大批以Facebook,Twitter,人人,微博等为代表的新型社交网站。这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来,而如何有效地对这些海量的用户数据进行社交网络分析(Social Network Analys...

2015-04-02 09:26:00 266

转载 redis实现主从复制-单机测试

一、redis实现主从复制-单机测试1、安装redis tar -zxvf redis-2.8.4.tar.gzcd redis-2.8.4make && make install2、配置主从关系需要在slave服务器的redis.conf中配置slaveof 192.168.1.1 6379 #指定master的ip和端口具体配置见下:cp redis.conf red...

2015-03-31 10:51:00 155

转载 Hadoop技术内幕(YARN)第4章问题部分答案

问题1:改写DistributedShell程序,使得每个container运行在不同节点上(目前是随机的,可能运行在任意节点上)。问题2:改写DistributedShell程序,使得某个用户指定的命令可以在集群的每个节点上仅执行一次。参考 http://tech.ddvip.com/2014-04/1396616894209607.htmlhttp://mail-arch...

2015-03-30 16:43:00 130

转载 storm学习途径

作者:xumingming| 网址:http://xumingming.sinaapp.com/category/storm/作者:量子恒道|网址:http://blog.linezing.com/转载于:https://www.cnblogs.com/Cherise/p/4365772.html...

2015-03-25 15:12:00 107

转载 Spark中的RDD操作简介

map(func)对数据集中的元素逐一处理,变为新的元素,但一个输入元素只能有一个输出元素scala> pairData.collect()res6: Array[Int] = Array(1, 2, 3, 4, 5)scala> val pairData = distData.map(a=>(a,1)).collect()res2: Array...

2015-03-23 09:53:00 140

转载 【转】Hadoop web页面的授权设定

转载自过往记忆(http://www.iteblog.com/)本文链接地址:《Hadoop web页面的授权设定》(http://www.iteblog.com/archives/988)一、相关概念  在默认情况下,Hadoop相关的WEB页面(JobTracker, NameNode, TaskTrackers and DataNodes)是不需要什么权限验证就可以直接进...

2015-03-20 15:20:00 617

转载 Spark调优

因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。1、数据序列化(1) Spark默认是使用Java的 ObjectOutputSt...

2015-03-19 16:38:00 77

转载 Ganglia安装

一、rrdtool安装1.1 安装依赖包由于rrdtool依赖的包比较多,而且包之间也存在依赖,故使用yum安装由于服务器无法联网,故使用iso文件创建本地yum源,方法见下:(1)创建iso存放目录和挂载目录mkdir /mnt/iso mkdir /mnt/cdrom(2)将iso镜像文件上传到/mnt/iso文件夹下(3)将/mnt/iso...

2015-03-19 15:34:00 151

转载 【转】Spark on Yarn遇到的几个问题

本文转自http://www.cnblogs.com/Scott007/p/3889959.html1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Applicati...

2015-03-19 14:44:00 106

转载 sparkR介绍及安装

SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD元素的运算。sc <- sparkR.init("local")line...

2015-03-16 17:02:00 316

转载 spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:JavaSparkContext sc = new JavaSparkContext(co...

2015-03-12 15:36:00 641

转载 如何编写自定义hive UDF函数

Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。Hive中有3种UDF:UDF:操作单个数据行,产生单个数据行;UDAF:操作多个数据行,产生一个数据行。UDTF:操作一个数据行,产生多个数据行一个表作为输出。用户构建的UDF使用过程如下:第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。UDF实例参见http://svn.apach...

2015-01-20 15:25:00 86

转载 Hadoop自定义JobTracker和NameNode管理页面

为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面。首先,在org.apache.hadoop.http.HttpServer中的构造函数public HttpServer(String name, String bindAddress, int port,boolean fin...

2015-01-20 15:08:00 293

转载 HighChart利用servlet导出中文PNG图片乱码问题解决

最近用到HighChart作图,在图片导出时,出现了图片中中文乱码的问题,在网络上找了很多资料,但都没有解决,最后才发现了最容易被忽略的问题。具体见下。由于之前有同事使用过HighChart,所以毫不犹豫了之前同事使用的方法:通过自己书写servlet,利用batik工具完成不同格式图片的导出,具体方法见下:@RequestMapping(value = "/save_ima...

2015-01-20 14:49:00 216

转载 在Linux中安装redmine

Redmine是用Ruby开发的基于web的项目管理软件,是用ROR框架开发的一套跨平台项目管理系统。如下即为安装步骤:(1)配置ruby环境,可用rvm进行安装匹配,参考http://ruby-china.org/wiki/install_ruby_guide(2)下载redmine软件包svn co http://svn.redmine.org/redmine/b...

2013-08-04 20:29:00 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除