排序:
默认
按更新时间
按访问量

Spark内存迭代计算初探

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html 首先安装Spark集群 前置条件,10.0.18.14-16 三台机器分别已安装好hadoop2,spark cluster机器规划 10.0.1...

2015-04-22 16:48:04

阅读数:915

评论数:0

hadoop处理小文件问题

本文转自个人原创blog: http://www.javali.org/document/hadoop-handle-numerous-small-files.html Hadoop带来了廉价的处理大数据的能力,可以这么理解,hadoop是为了解决大数据(大文件)计算而出现的分布...

2015-04-22 16:45:44

阅读数:430

评论数:0

Hadoop2安装运行问题汇总

本文转自我的原创blog:  http://www.javali.org/document/hadoop2_related_problems_summary.html hadoop版本:cdh4.7.0 操作系统: centos6 64bit CDH3安装文档请跳至:...

2015-04-22 16:35:19

阅读数:367

评论数:0

利用CombineFileInputFormat处理小文件

在之前的文章里hadoop处理小文件问题 使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护,适用管理人员的操作,而且har文件一旦创建,Archives便不可改变,所以适合一次性写入大量小文件的场景。 hadoop自带的还有另一种解决方案:C...

2015-04-22 16:35:00

阅读数:467

评论数:0

Mysql中load data infile主从复制注意点

本文转自我的原创blog:http://www.javali.org/document/tips-on-replication-in-load-data-infile-in-mysql.html 在mysql官方文档的描述里,load data infile加载数据要比普通的in...

2015-04-22 16:21:51

阅读数:572

评论数:0

Mysql大数据库迁移

本文转自我的原创blog:http://www.javali.org/document/mysql_migration_with_large_datas.html 最近可真撞大运了,AB两个平台的从库同时故障。据OP反馈其中一台是电源问题,负载一上来就断电;另一台内存故障导致不间断重启。 ...

2015-04-22 16:19:50

阅读数:851

评论数:0

Storm滑动窗口实现批量计算

storm是一个流式处理框架,可以做到Spout产生一条数据,Bolt处理一条以达到实时计算。 这种模式并不是实际的业务需要的,我们更多是需要 最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10 这类问题都可以抽象为:每隔M秒统计最近N秒内的数据,即我们需要一个滑...

2015-03-31 18:38:27

阅读数:4219

评论数:0

Mapreduce读取OrcFile格式的改造

本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.html The Optimized Row Columnar (ORC) file format provides a highly e...

2015-03-24 18:09:05

阅读数:1175

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭