- 博客(7)
- 资源 (6)
- 收藏
- 关注
转载 spark 基础知识- spark SQL专题
一、简介 Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同,Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。在Spark内部,Spark SQL会能够用于做优化的信息比RDD API更多一些。Spark SQL如今有了三种不同的API:SQL语句、DataFrame API和最新的Dataset API。不过真正运行计算
2017-07-18 14:49:34 1094
转载 hbase bulk load相关源码简析之PutSortReducer、KeyValueSortReducer
转载请注明出处: http://blog.csdn.net/lonelytrooper/article/details/17040895PutSortReducer:[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序,并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2
2017-07-10 18:55:12 431
转载 hbase bulk load相关源码简析之HFileOutputFormat、LoadIncrementalHFiles
转载请注明出处: http://blog.csdn.net/lonelytrooper/article/details/17040895PutSortReducer:[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序,并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2
2017-07-10 18:53:49 932
转载 hbase bulk load 小实践及一些总结
转载请注明出处:http://blog.csdn.net/lonelytrooper/article/details/17042391很早就知道bulk load这个东西,也大致都清楚怎么回事,居然直到前几天才第一次实践... 这篇文章大致分为三个部分:1. 使用Hbase自带的importtsv工具2. 自己实现写mr生成hfile并加载3. bulk load本身及对依赖的
2017-07-10 18:52:22 2363
原创 HBase性能优化方法总结
本文主要是从Hbase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关hbase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直
2017-07-07 18:03:23 663
原创 MapReduce生成HFile入库到HBase
一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入
2017-07-06 20:30:30 2341
转载 java clone方法使用详解
Java语言的一个优点就是取消了指针的概念,但也导致了许多程序员在编程中常常忽略了对象与引用的区别,特别是先学c、c++后学java的程序员。并且由于Java不能通过简单的赋值来解决对象复制的问题,在开发过程中,也常常要要应用clone()方法来复制对象。比如函数参数类型是自定义的类时,此时便是引用传递而不是值传递。以下是一个小例子:Java代码 public class
2017-07-06 20:21:19 333
A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining
2014-10-15
Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach
2014-10-15
Understanding Student Behaviors in Online Classroom_Data Scientific Approach
2014-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人