14yhuang-CSDN博客

原创 hbase概念架构

文章目录hbase是啥HBase vs RDBMShbase shellhbase架构regionhmasterzookeeper协作工作元数据管理元数据信息hbase是啥hadoop的大数据存储库，适合随机实时读取大数据量。HBase vs RDBMS列式存储方式缺少SQL分布式：可扩展性KV存储支持的列多表之间耦合性低(解耦)（大宽表）支持大数据量存在冗余（数据更新不...

2019-02-18 20:10:31 240

原创 cdh部署

收费版本有自动回滚功能centeros 7.2cdh 5.12.0MySQL 5.7.11Jdk 1.8u121python 2.7yum install -y lrzsz[root@hadoop002 ~]# scp mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz root@172.26.165.129:/root[root@hadoop...

2019-02-15 16:42:20 757 1

原创 flume连kafka

exec-memory-kafka2.conf#agentexec-memory-kafka.sources = exec-sourceexec-memory-kafka.channels = memory-channelexec-memory-kafka.sinks = kafka-sink1#sourceexec-memory-kafka.sources.exec-source....

2019-02-13 07:42:52 224

原创编译自定义函数到hive源码

文章目录下载解压hive源码自定义一个java的类注册函数编译复制hive-exec-1.1.0-cdh5.7.0.jar下载解压hive源码wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz自定义一个java的类package org.apache.hadoop.hive.ql.udf;...

2019-02-04 15:20:03 411

文章目录先创建表加载数据可以在网页端看到hive目录里已经有了表和分区删除一个分区1.partition_key_vals2.partition_params3.partitions回hive查看果真分区被删了删除整个表1.partition_key_vals2.partition_params3.partitions4.partition_keys5.TABLE_PARAMS6.tbls此时hi...

2019-02-04 11:07:13 1539 1

原创 kafka-streaming偏移量管理

文章目录RuozeKafkaProducer.java用checkpoint记录偏移量用mysql记录偏移量MysqlOffsetAppRuozeKafkaProducer.java先写一个kafka制造数据的东东package com.ruozedata.bigdata.kafka;import kafka.javaapi.producer.Producer;import kafk...

2019-01-31 19:51:14 714

原创 kafka整合Streaming，胖包，操作Zookeeper

文章目录测试kafka正常工作streaming整合kafka ideareceiver的代码receive方式注意的点打包上传，胖包瘦包瘦包方式直接上传不带receiver操作Zookeeper第一种方式查看Zookeeper第二种方式：Curator测试kafka正常工作[hadoop@hadoop000 kafka]$ bin/kafka-topics.sh \&amp;amp;amp;amp;gt; --creat...

2019-01-29 20:08:16 392

原创 Streaming的重要算子

文章目录TransformUpdateStateByKeyForeachRDDAppWindowsAppTransform可以通过这个算子对Dstream和RDD之间互操作，返回值还是Dstream。package com.ruozedata.bigdata.streaming03import org.apache.spark.SparkConfimport org.apache.sp...

2019-01-26 21:35:37 258

原创 Streaming概念注意点，receiver

文章目录StreamingContext多种写法测试关于Streaming要注意的点receiver和mvnc -lk 9999StreamingContext多种写法测试import org.apache.spark.streaming.{Seconds, StreamingContext}val ssc = new StreamingContext(sc, Seconds(10))...

2019-01-25 09:01:54 213

原创 flume负载均衡，容错，监控

文章目录串联flumeexec-avro-agent.conf 客户端avro-logger-agent.conf 服务端负载均衡客户端两个server端容错监控串联flume用avro串联exec-avro-agent.conf 客户端#agentexec-avro-agent.sources = exec-sourceexec-avro-agent.channels = memor...

2019-01-20 20:12:04 633 2

原创 catalog,dataset,sparkstreaming

sparksql 1.0版本有的1.2 schema RDD1.3改名DataFrame1.6 多了Dataset ，为了compile-time type safety 编译时的类型安全1.取不到hive表dataset和dataframe区别比如说要执行这么一个语句 spark.sql(&quot;seelct a from x&quot;)虽然这个select打错了，但是写代码的时候并不会...

2019-01-18 14:45:11 246

原创 kafka log文件，生产有序

文章目录模拟生产消费实验consumergroupkafka log文件查数逻辑消费语义生产不有序的问题如何保证业务有序调优参数监控模拟生产消费实验在生产者下输入信息，在消费者可以看到消息#创建g5topic，2181这些是zookeeper端口bin/kafka-topics.sh \--create \--zookeeper 192.168.137.190:2181,192.168...

2019-01-15 18:48:17 403 1

原创 kafka概念，zookeeper和kafka伪分布式部署，软连接与nohub，kafka常用命令

文章目录kafka是啥主题 topic一个主题有n个分区,方便并行部署kafka之前要部署zookeeperzookeeper伪分布式部署kafka版本给kafka个软连接看看之前的zookeeper有没有kafka残留信息kafka配置启动kafka用nohup不挂断启动kafkakafka常用命令创建topic与查看修改topic删除topic假如删除不干净1.删除linux磁盘文件夹2.删除...

2019-01-12 11:00:13 522

原创 Lzo压缩

文章目录安装类库下载、解压LZO编译LZO包下载Hadoop-LZO修改Hadoop-LZO pom添加cloudera仓库修改hadoop版本编译Hadoop-LZO配置Hadoop环境变量修改hadoop-env.sh修改core-site.xml修改mapred-site.xml压缩数据上传到HDFS建立索引文件LzoCodec和LzopCodec安装类库安装一些依赖的类库yum -y...

2019-01-10 19:18:49 959

原创 flume基础

cdh indexflume收集日志数据的框架一个agent就是一个flumesource做收集channel，缓冲，收集数据和写数据的速度不能控制。sink，写数据

2019-01-10 07:48:52 149

原创 metastore，join，udf，catalys

文章目录hive的MetaStore信息DbsVersionTblsTable_paramsCdsSdsSerdesColumns_v2PartitionsPartition_keysPartition_key_vals细谈joinmapreduce里实现执行流程执行计划里有3部分内容在Hive里查看执行计划mapjoin执行计划看hashtableUDF 用户定义函数Pom.xml添加hive依...

2019-01-07 09:06:42 222

原创实现一个外部数据源

文章目录JDBCrelationprovider模仿JDBCrelationproviderJDBCrelationBaserelationPrunedFilteredScan模仿JDBCrelation代码里的Utils.castTo要定义一个外部数据源可以参考JDBCrelation和JDBCrelationprovider。JDBCrelation相当于用户可以使用里面的方法实现数据s...

2019-01-05 22:56:26 538

原创 spark on yarn的两个warning

文章目录警告1警告2警告1WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable具体原因是从java.library.path处没有找到libhadoop.so,我们发现,libhado...

2019-01-02 18:48:42 205

原创配置sparksql读hive，dataframe和RDD，将RDD转换成Dataframe，视图，withcolumn

退出spark-shell :quit使用spark自带文件[hadoop@hadoop000 resources]$ pwd/home/hadoop/app/spark-2.4.0-bin-2.6.0-cdh5.7.0/examples/src/main/resourcesscala&amp;amp;amp;amp;amp;gt; val df = spark.read.json(&amp;amp;amp;amp;quot;file:///hom

2019-01-02 18:25:55 2157

原创外部数据源读写，JDBC连其他数据库

外部数据源API下面的小圈圈就是mysql这些的读写外部数据源import org.apache.spark.sql.{SaveMode, SparkSession}object DataSourceApiApp { def main(args: Array[String]): Unit = { val sparkSession=SparkSession.builder()...

2019-01-01 18:44:37 400

原创读取sequencefile，序列化，sparksubmit，SparkContext流程，推测式执行

文章目录读取sequencefile序列化所以序列化的作用java序列化kryo序列化程序模板测试sparksubmit参数SparkContext推测式执行推测式执行原理退出安全模式 [hadoop@hadoop000 sbin]$ hadoop dfsadmin -safemode leave读取sequencefileimport org.apache.hadoop.io.Byte...

2018-12-31 19:16:54 931

原创 sparkSQL，hive on spark ，thriftserver

文章目录SparkSQL特性Hive on SparkSpark各版本特性一个好的学习网站SparkSQL配置支持Hive概念试验配置启动sparkSQL cachethriftserverthriftserver vs spark applicationDatasets和DataFrames配置在IDEA简单程序SparkSQL特性1.可以在程序里使用SQL2.DataFrames和SQL...

2018-12-26 19:27:16 1002

原创 cache，StorageLevel，广播变量，计数器，spark on yarn

RDD持久化spark重要特性，缓存数据在内存里。当持久化一个RDD的时候，RDD会把所有内存里的分区信息存储下来，这样就能够基于这个数据集做复用在以后的action里。实验scala&amp;amp;amp;gt; var info =sc.textFile(&amp;amp;quot;file:///home/hadoop/data/page_views.dat&amp;amp;quot;)scala&amp;amp;amp

2018-12-24 07:42:21 323

原创 spark程序提交执行，spark-shell，算子

spark-shell里的内容：调用spark-submit，默认名字Spark shell，$@相当于获取用户输入的模式（比如local）&amp;amp;amp;quot;${SPARK_HOME}&amp;amp;amp;quot;/bin/spark-submit --class org.apache.spark.repl.Main --name &amp;amp;amp;quot;Spark shell&amp;amp

2018-12-21 08:05:25 1505

原创 spark核心术语，运行机理，算子讲解（partitions），宽窄依赖，shuffle

文章目录核心术语spark运行机理Transformationsmap和mapPartitionsforeach和foreachpartitioncoalesce和repartitionShuffle窄依赖和宽依赖Stagegroupbykey和reducebykey代码map和mapPartitionforeach和foreachpartitioncoalesce_repartitiongrou...

2018-12-19 09:14:17 458

原创 scala wordcount，scalikejdbc，生成文件

wordcountgetlinesimport scala.collection.mutable.{ArrayBuffer, ListBuffer}import scala.io.Sourceobject WordCount { def main(args: Array[String]): Unit = { var file = Source.fromFile("F:...

2018-12-16 15:42:21 178

原创 scala和java操作hdfs

<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> 在pom.xml里加

2018-12-14 15:18:56 260

原创 spark源码编译与基本概念

欲装spark-2.4.0linux环境有，java8 ，maven-3.6.0，hadoop-2.6.0-cdh5.7.0下载源码并修改pom.xml里的文件下载地址然后在spark目录下运行以下指令，设置需要对应的支持和名字./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive -Phive...

2018-12-11 09:38:35 125

原创 scala函数式变程，curry，读取文件，字符串插值，隐式转换，模式匹配

文章目录scala函数式变程scala读取文件字符串插值scala隐式转换模式匹配，偏函数，try catchscala函数式变程object AdFunctionApp { def main(args: Array[String]): Unit = { val l = List(1,2,3,4) 列表里面的元素*2 for(ele &amp;lt;- l){ ...

2018-12-09 20:02:39 156

原创 scala 构造，继承，抽象，静态，伴生，caseclass，数组，列表，映射，元祖，集合

scala之构造函数首先写在main函数里的： //3个入参 // new的时候其实就是调用的构造方法val person2 = new Person(&amp;amp;amp;quot;J总&amp;amp;amp;quot;,18,gender = &amp;amp;amp;quot;asd&amp;amp;amp;quot;)//输出4个println(person2.name + &amp;amp

2018-12-06 19:35:44 326 1

原创 scala基础

项目基本设置object FunctionApp { def main(args: Array[String]): Unit = { //是否这个类型，变成哪个类型 10.isInstanceOf[Int] 10.asInstanceOf[Long] println(add3(3,5)) sayhello() sayhello //...

2018-12-04 08:50:29 95

原创大数据里的存储格式

文章目录hive里的存储格式行式存储列式存储TextFile格式Sequencefile格式RCfileparquet列式存储ORC存储从查询角度比较各种存储hive server2hive里的存储格式详见官网https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationhive里默认存储是text...

2018-12-03 16:02:10 1447

转载 hadoop编译

hadoop编译前期准备软件需要软件安装安装maven安装ProtocolBuffer 2.5.0安装其他依赖包对hadoop进行编译参考文档前期准备软件需要部署JAVA环境安装maven安装Protocol Buffer 2.5.0安装Findbugs（可选）软件安装安装maven下...

2018-12-02 20:02:13 121

原创大数据中的压缩

压缩的场景这张图大概说了日志文件采集到hdfs，经过处理引擎，通过各个维度统计分析操作，输出到db的流程。这里关于压缩和解压的步骤有：压缩：数据采集，数据处理后解压：hdfs到处理引擎为什么压缩压缩带来好处：减小网络传输，节省存储空间缺点：耗cpu压缩支持切片？如果压缩文件不支持split，那么就只能以一个map task处理。Lzo压缩如果有一个index文件，记录从哪里拆...

2018-12-02 16:02:58 306 1

原创高可用环境搭建

对于三台机都创建，software放软件包[root@hadoop001 ~]# useradd hadoop[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ mkdir software app data lib source[hadoop@hadoop001 ~]$ lltotal 20drwxrwxr-x 2 hadoop ...

2018-11-26 20:26:04 341

原创 Hdfs高可用，yarn高可用

1.为什么高可用？之前的hdfs的nn+dn+snn架构，snn是一个小时备份一次，如果突然nn节点挂了，就算回到之前的备份，新数据已经丢失。为了弥补这个缺点，有高可用架构nn+dn+nn，两个nn一主一备，其中一个挂了，另一个马上顶上。解决了单点问题。2.HDFS高可用架构图如图所示，两个nn通过jn（JounalNode 日志）来共享状态，而dn会同时向两个nn汇报心跳和blockr...

2018-11-25 13:19:20 496

原创小项目里一些之前没讲过的

1.欲知一串url的意思，可以搜urldecode2.mysql文本文件想执行，在mysql里source /home/hadoop/data/product_info.sql;3.jps -m可以看具体跑的jar4.get_json_object这样的数据1 product1 {"product_status":1}取json里的值 get_json_object(json_txt,...

2018-11-16 09:58:49 111

原创 sqoop

1.sqoop是什么？封装的一个框架：指定输入和输出Sqoop其实就是一个mr jar包，底层实现就是mr==&gt; Sqoop : SQL to HadoopSQL: RDBMSHadoop: HDFS/Hive/HBase导入：RDBMS ==&gt; Hadoop导出：Hadoop ==&gt; RDBMS2.sqoop架构分为Sqoop1.x 用这个Sqoop2....

2018-11-15 10:22:17 216

原创 Hive DML ，分区表

1.Hive构建在Hadoop之上的数据仓库sql ==&gt; Hive ==&gt; MapReduce但是有些简单基本的hive不调用mapreduce，就是不带分组的2.分组函数：出现在select中的字段，要么出现在group by子句中，要么出现在聚合函数中。3.count(1) and count(字段)两者的主要区别是（1） count(1) 会统计表中的所有的记录数，...

2018-11-13 10:05:54 204

原创 HIVE DDL

1.何为DDL？DDL: Data Definition Languagecreate delete drop alter关键字开头的2.hive的抽象3.关于数据库存放位置和参数查询开局自带一个default数据库，默认数据库存放位置：/user/hive/warehouse，位置是由参数决定的：hive.metastore.warehouse.dirHive所有参数的查询：htt...

2018-11-08 21:15:16 149

空空如也

空空如也