2016年11月_初级以上

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Scala开篇-开发环境搭建-IntelliJ IDEA

一句话简介Scala： Scala是一门新的编程语言，即是面向对象的，也是面向函数的编程语言，Scala天生就和Java无比的亲密，可以无缝的使用Java的所有类库。一句话简介IntelliJ IDEA：它是一个集成开发工具，可视化的开发工具，是开发Scala应用程序、Java应用程序的IDEA，因为它的设计非常人性化，使用起来很顺手，似乎现在比Eclipse

2016-11-26 09:05:05 2254

原创 Spark运行脚本解析 - start-all.sh

部署Standalone Cluster模式的Spark，可以通过2种方法来启动Cluster： 1）通过手工的方式，单独在Master节点上启动master实例；然后，再单独在Worker节点上启动worker实例； 2）通过Spark自带的运行脚本来管理启动，只需要运行./sbin/start-all.sh，就可以自动启动master和所有的worker实例。

2016-11-24 13:42:53 5180

翻译 HBase表设计的经验分享

由于实际的项目应用中，有很多不同的数据集，不同的数据访问模式和服务水平高低的不同预期。因此这些经验只是说到一些基本规则，具体在实现要根据自己的项目的实际业务的数据访问模式来进行调整。主要的基本规则有： 1）Regions的大小定在10~50GB； 2） Cells的大小不要超过10MB，如果要存储中型数据（超过50MB），可以选择将数据存储

2016-11-23 09:12:47 1169 1

翻译 HBase作为MapReduce作业的数据源和数据接收器

对于MapReduce 作业，HBase可用作数据源——TableInputFormat，也可用作数据接收器——TableOutputFormat或 MultiTableOutputFormat，使用TableMapper、TableReducer子类，编写MapReduce作业读取或写入HBase。可以参考IdentityTableMapper和 IdentityTableReducer了解基本

2016-11-22 14:32:11 1393

原创 Kettle 将Oracle数据导入HBase的注意事项

使用Kettle采集Oracle数据，导入到HBase。 Kettle是一个比较好用的ETL工具，个人感觉Kettle比Sqoop还要好用，主要是因为Kettle通过可视化，组件式拖拉配置就可以实现数据提取，转换、写入。而Sqoop 的shell 命令行真是不好用，而且Sqoop 2还不支持将关系型数据库的数据导入到HBase中，现在只支持导入到Hadoop。 Kett

2016-11-08 11:17:16 4774 1

翻译 Qpid 的Broker体系结构

一、Qpid简介： Qpid是一个非常棒的消息中间件，比较轻量级，也比较易用。并且实现了AMQP，是所有消息中间件的皎皎者，有望成为消息中间件的行业标准。二、Qpid的重要实体： Qpid的重要是Broker，实现对消息处理全部功能，即从生产者那里接收消息，再交付给消息费者消费消息。首先来看一下Broker的体

2016-11-06 21:44:44 1093

原创 Solr 4.7.2 更新 SolrCould 的 schema.xml 方式

在对schema.xml进行修改后，要想使schema.xml生效，有2种方式： 1）重新启动SolrCould集群； 2）重新加载配置文件；如果使用第1种方法，就会使整个集群处于一段时间内不可用；我比较建议使用第2种方法，虽然第2种方法会比较麻烦。下面介绍第2种方法的操作步骤。重新加载配置文件： 1）更新集群

2016-11-02 11:52:09 2018

原创 HBase 集群服务器时间不同步导致HRegionServer无法启动

由于机器重启，所以单独启动HRegionServer，结果发HRegionServer进程刚启动就自动关闭了，查看日期文件，发现报错了：Server centos6,16020,1477966664214 has been rejected; Reported time is too far out of sync with master. Time difference of 43894m

2016-11-01 11:54:02 1946

原创 Hadoop+HBase高可用环境测试

Hadoop和HBase高可用环境运行正常，由于修改Hadoop 的相关配置文件，所以需要重启Hadoop集群。本次测试的目的是：确保Hadoop和HBase都可用的前提下，重启Hadoop集群。原因：修改core.xml、mapred-site.xml、yarn-site.xml并同步至集群中的所有服务器；主要测试步骤： 1、单

2016-11-01 10:42:36 1143

protobuf-java-2.5.0.jar

protocol buffer 是google开源的序列化反序列化工具，用于结构化对象的序列化和反序列化，具有容量小，解析效率高等优势。

2016-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人