大数据
夕阳下的独行者
多一份成熟,少一份浮躁,多一份孤独,少一份热闹。
展开
-
大数据bug总结
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh...转载 2018-10-18 17:16:22 · 1933 阅读 · 0 评论 -
hbase总结
hbase *时间同步ntpdate cn.pool.ntp.org *启动错误,日志查看1.hdfs日志,hadoop安装目录下的logs目录2.zookeeper日...原创 2018-10-19 11:37:19 · 385 阅读 · 0 评论 -
hive总结
...原创 2018-10-19 11:34:09 · 429 阅读 · 0 评论 -
flume总结
source:采集数据channel:缓冲区,如果不用channel可能导致source中数据过大而瘫痪。sink:读取缓冲区数据,读取完删除该数据。三者用Event类型来交互数据flume安全问题:flume链式集成配置: *flume的版本区别flume特点1.采集大...原创 2018-10-19 11:32:13 · 276 阅读 · 0 评论 -
sqoop总结
sqoop2 *sqoop就是可以高效的让关系型数据库和大数据平台存储系统进行数据迁移的框架其底层原理是把用户的操作转换成map任务然后发布到yarn上进行分布式的执行,从而完成对大数据的迁移。*sqoop2包含客户端和服务端...原创 2018-10-19 11:16:06 · 486 阅读 · 0 评论 -
kafka总结
kafka充当消息队列 scala 2.11.X*kafka的架构zookeeper:集群协调管理配置工具。kafka的集群的形成和集群的基本配置信息,以及kafka的元数据信息,都保存在zookeeper中。kafka的broker连接信息也保存在zookeeper中。Broker:kafka的每一个服务节点都被称作broker,kafka集群就是由若干个b...原创 2018-10-19 11:14:59 · 507 阅读 · 0 评论 -
storm总结
*storm的开发开发spout类(定义一个类型实现BaseRichSpout抽象类,然后实现其nextTuple方法和open方法)开发bolt类(定一个类型实现BaseRichBolt抽象类,然后实现其execute方法,declareOutputFields方法)把spout类和bolt类组装在一块形成一个topology(使用TopologyBuilder来创建top...原创 2018-10-19 11:10:29 · 246 阅读 · 0 评论 -
kettle
ambaricloudera manager(cdh) where col1 like 'abc%' rowfilter适用场景当从hbase中获取rowkey大于或者小于某个值的时候rowkey中包含某个字符串的时候 where col1='3' and col2 >33 or col3 <123...原创 2018-10-19 11:08:28 · 380 阅读 · 0 评论 -
spark总结
spark 执行过程 yarn 执行过程 *spark的理解spark是一个快速的、统一的大规模数据处理引擎它是基于内存计算的它的特点是:快速、易用、适用于各种数据处理场景(批处理、流处理、交互式处理)、它可以运行在多种分布式计算框架中,如yarn和mesos等 *spark的架构Master...原创 2018-10-19 11:04:37 · 277 阅读 · 0 评论 -
大数据总结
1.hdfs的原理,各个进程的作用 hdfs是一个主从架构的分布式文件管理系统。 设计思想:分而治之——将大文件、大批量文件,分布式存放在大量独立的服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 hdfs提供了一个统一的目录树来定位hdfs中的文件,文件是被切块存储在若干台datanode服务器上,每一个文件的每一个切块,在hdf...原创 2018-10-19 10:43:21 · 677 阅读 · 0 评论 -
idea打包spark程序在集群上运行过程(1)
第一步: 第二步:第三步:第四步:第五步: spark-submit --master yarn --deploy-mode cluster --driver-memory 4G --executor-memory 5g --num-executors 10 --conf nf spark.yarn.executor.memoryOverhearhe...原创 2018-10-24 17:51:21 · 1397 阅读 · 1 评论