aoluochou3553
码龄9年
求更新 关注
提问 私信
  • 博客:3,994
    3,994
    总访问量
  • 暂无
    原创
  • 1
    粉丝
  • 0
    关注
加入CSDN时间: 2016-04-01
博客简介:

aoluochou3553的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得1次收藏
创作历程
  • 14篇
    2015年
  • 1篇
    2013年

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

[转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具

转自http://www.dataguru.cn/forum.php?mod=viewthread&tid=286174随着互联网的快速发展,涌现出了一大批以Facebook,Twitter,人人,微博等为代表的新型社交网站。这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来,而如何有效地对这些海量的用户数据进行社交网络分析(Social Network Analys...
转载
发布博客 2015.04.02 ·
318 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

redis实现主从复制-单机测试

一、redis实现主从复制-单机测试1、安装redis tar -zxvf redis-2.8.4.tar.gzcd redis-2.8.4make && make install2、配置主从关系需要在slave服务器的redis.conf中配置slaveof 192.168.1.1 6379 #指定master的ip和端口具体配置见下:cp redis.conf red...
转载
发布博客 2015.03.31 ·
192 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

storm学习途径

作者:xumingming| 网址:http://xumingming.sinaapp.com/category/storm/作者:量子恒道|网址:http://blog.linezing.com/转载于:https://www.cnblogs.com/Cherise/p/4365772.html...
转载
发布博客 2015.03.25 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop技术内幕(YARN)第4章问题部分答案

问题1:改写DistributedShell程序,使得每个container运行在不同节点上(目前是随机的,可能运行在任意节点上)。问题2:改写DistributedShell程序,使得某个用户指定的命令可以在集群的每个节点上仅执行一次。参考 http://tech.ddvip.com/2014-04/1396616894209607.htmlhttp://mail-arch...
转载
发布博客 2015.03.30 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark中的RDD操作简介

map(func)对数据集中的元素逐一处理,变为新的元素,但一个输入元素只能有一个输出元素scala> pairData.collect()res6: Array[Int] = Array(1, 2, 3, 4, 5)scala> val pairData = distData.map(a=>(a,1)).collect()res2: Array...
转载
发布博客 2015.03.23 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Ganglia安装

一、rrdtool安装1.1 安装依赖包由于rrdtool依赖的包比较多,而且包之间也存在依赖,故使用yum安装由于服务器无法联网,故使用iso文件创建本地yum源,方法见下:(1)创建iso存放目录和挂载目录mkdir /mnt/iso mkdir /mnt/cdrom(2)将iso镜像文件上传到/mnt/iso文件夹下(3)将/mnt/iso...
转载
发布博客 2015.03.19 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sparkR介绍及安装

SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD元素的运算。sc <- sparkR.init("local")line...
转载
发布博客 2015.03.16 ·
354 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【转】Spark on Yarn遇到的几个问题

本文转自http://www.cnblogs.com/Scott007/p/3889959.html1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Applicati...
转载
发布博客 2015.03.19 ·
117 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark出现task不能序列化错误的解决方法

应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:JavaSparkContext sc = new JavaSparkContext(co...
转载
发布博客 2015.03.12 ·
730 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HighChart利用servlet导出中文PNG图片乱码问题解决

最近用到HighChart作图,在图片导出时,出现了图片中中文乱码的问题,在网络上找了很多资料,但都没有解决,最后才发现了最容易被忽略的问题。具体见下。由于之前有同事使用过HighChart,所以毫不犹豫了之前同事使用的方法:通过自己书写servlet,利用batik工具完成不同格式图片的导出,具体方法见下:@RequestMapping(value = "/save_ima...
转载
发布博客 2015.01.20 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何编写自定义hive UDF函数

Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。Hive中有3种UDF:UDF:操作单个数据行,产生单个数据行;UDAF:操作多个数据行,产生一个数据行。UDTF:操作一个数据行,产生多个数据行一个表作为输出。用户构建的UDF使用过程如下:第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。UDF实例参见http://svn.apach...
转载
发布博客 2015.01.20 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在Linux中安装redmine

Redmine是用Ruby开发的基于web的项目管理软件,是用ROR框架开发的一套跨平台项目管理系统。如下即为安装步骤:(1)配置ruby环境,可用rvm进行安装匹配,参考http://ruby-china.org/wiki/install_ruby_guide(2)下载redmine软件包svn co http://svn.redmine.org/redmine/b...
转载
发布博客 2013.08.04 ·
146 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop自定义JobTracker和NameNode管理页面

为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面。首先,在org.apache.hadoop.http.HttpServer中的构造函数public HttpServer(String name, String bindAddress, int port,boolean fin...
转载
发布博客 2015.01.20 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【转】Hadoop web页面的授权设定

转载自过往记忆(http://www.iteblog.com/)本文链接地址:《Hadoop web页面的授权设定》(http://www.iteblog.com/archives/988)一、相关概念  在默认情况下,Hadoop相关的WEB页面(JobTracker, NameNode, TaskTrackers and DataNodes)是不需要什么权限验证就可以直接进...
转载
发布博客 2015.03.20 ·
688 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark调优

因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。1、数据序列化(1) Spark默认是使用Java的 ObjectOutputSt...
转载
发布博客 2015.03.19 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多