自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZYG的博客

希望大家共同学习进步,认识到存在的一些自己可能存在的问题,改正自己的不足。

  • 博客(18)
  • 收藏
  • 关注

原创 SparkStreaming入门总结

Spark Streaminghttp://spark.apache.org/docs/2.2.1/streaming-programming-guide.htmlSpark Streaming 的checkPoint:提供故障容错To summarize, metadata checkpointing is primarily needed for recovery from drive...

2019-07-27 09:22:01 270

原创 SparkStreaming消费Kafka

单词计数package zygDemo1.kafkaimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.dstream.{DStream,...

2019-07-27 09:16:13 261

原创 Kafka的安装

Kafka安装安装前的准备工作关闭防火墙,时间同步,zk安装完等Kafka集群部署安装包下载http://kafka.apache.org/downloads.html在linux中使用wget命令下载安装包wget http://mirrors.hust.edu.cn/apache/kafka/1.1.0/kafka_2.11-1.1.0.tgz.tgz解压安装包:tar -z...

2019-07-17 09:53:07 307

原创 Kafka学习总结

Kafka官网地址http://kafka.apache.org/21/documentation.html#introductionApache Kafka®是一个分布式流媒体平台。这到底是什么意思?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息系统。以容错的持久方式存储记录流。在记录发生时处理记录流。Kafka通常用于两大类应用程序:构建实时流数据管道,在系统或...

2019-07-17 09:43:14 164

原创 Sqoop简介

sqoop是什么?sqoop是个传输数据的工具。本质:就是讲sqoop语句转换成mapreduce。官网地址Apache Sqoop(TM)是一种工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。http://sqoop.apache.org/特点优点:他可将将跨平台的数据进行整合。缺点:不是很灵活mysql <–> hd...

2019-06-06 09:44:08 1147

原创 MapReduce入门简介

MapReduce简介MapReduce是一个软件框架,用于轻松编写应用程序,以可靠,容错的方式在大型集群(数千个节点)的商用硬件上并行处理大量数据(多TB数据集)。MapReduce 作业通常将输入数据集拆分为独立的块,这些块由map任务以完全并行的方式处理。框架对map的输出进行排序,然后输入到reduce任务。通常,作业的输入和输出都存储在文件系统中。该框架负责调度任务,监视任务并重新执...

2019-06-05 22:13:07 241

原创 flume入门必看

flume的组件client:客户端(运行agent的地方)source:数据源,负责收集数据,将数据写入channelchannel:管道,缓存数据的地方(缓存一定有大小),将数据推送到sinksink:下沉器,负责拉取channel端的数据,将数据存储到存储系统interceptor:拦截器,flume允许使用拦截器,拦截器可以作用于source端也可以作用于sink端,支持拦截器...

2019-06-05 21:46:35 197

原创 Hive简介

配置Hive可能出现的问题:元数据,mysql,hdfs的文件出错的话,查看配置文件vi ${HIVE_HOME}/conf/XXX.xmlhive出现权限问题的话:select user,host from user;(查看权限,%表示全部都有) 删除其他多余权限就可以了(很多时候hive识别权限会出错)Hive介绍Hive是用来进行数据分析的工具,他提供一种类SQL语言。...

2019-06-05 15:34:38 187

原创 Hbase内置Zookeeper连接失败

在开启Hbase的时候运行,start-hbase.sh 报错:localhost: ssh: Could not resolve hostname localhost: Name or service not knownstarting master, logging to /apps/hbase-1.2.0-cdh5.13.2/logs/hbase-root-master-hadoop...

2019-06-05 14:57:21 4501 1

原创 Zookeeper入门简介

什么是Zookeeper?Zookeeper是一个分布式协调服务,就是为分布式系统提供协调服务Zookeeper本身也是一个分布式程序Zookeeper是为别的分布式系统提供服务的Zookeeper本身也是一个分布式程序(只要有半数以上节点存活,Zookeeper就能对外提供服务)Zookeeper集群一般都是奇数台节点(Zookeeper内部如果某台服务器出现了宕机,Zookeeper...

2019-06-03 17:28:29 472

原创 如何写SQL(HIVE)?

以下内容用hive举例:简单的SQL数据 student表#字段名:s_id s_name s_birth s_sex01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-01 女0...

2019-06-01 11:59:18 2113 3

原创 数据库中的事务

数据库的简介数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。数据库:电子化的文件柜。用户可以对文件中的数据进行新 增、截取、更新、删除等操作。常用的数据库MYSQL:玲珑的小老鼠经常在老猫不经意间偷走了市场.MS SQL Server:笼中小麻雀受限于Windows平台的性能,难于在企业开发中大展身手.IBM DB2:彪悍的大笨象秉承了IBM一贯彪悍的性格,...

2019-06-01 09:39:28 185

原创 Hbase入门必看

hbase是一个开源的,分布式的,版本化的,非关系型数据库,hbase依赖于HDFS存储hbase的特点一个表可以有数十亿行,上百万列无模式:每行数据都有一个唯一的主键和任意多的列,列可以动态的增加稀疏:关于null的列不存储数据多版本:每个cell中的数据可以有多个版本缺点:不支持小文件,不支持并发写,不支持随机修改,查询效率低数据结构rowkey决定了一行数据的唯一标识(一行...

2019-06-01 03:35:14 241

原创 Hive优化

hive优化explain执行计划(hive底层计算框架是通过mapreduce实现的,所以查看执行计划,可以很好的去优化hive)EXPLAIN [EXTENDED|DEPENDENCY|AUTHORIZATION] tablenamejoin,尽量避免子查询分区分桶,避免全表扫描join前过滤(on过滤)本地模式,如果计算量不大可以设置在本地运行严格模式严格,模式下禁止三种查...

2019-06-01 03:12:32 501

原创 HDFS入门简介

HDFS是什么?易于扩展的分布式文件系统运行在大量普通廉价机器上提供容错机制为大量用户提供性能不错的存取服务设计目标:自动快速检测应对硬件错误流式访问数据,以流的方式访问数据,设计用于数据的批量处理缺点:不适合存储大量小文件;不适合低延迟的数据访问;不支持多用户写入及任意修改文件移动计算不移动数据(大数据基本原则,空间换时间)简单一致性模型异构平台可移植性安装配置追...

2019-06-01 02:33:36 19656

原创 大数据入门篇

大数据学习之路首先在学习大数据的开始,一定要学会几个操作。(java是必须会的基础)看官网,比如学会自己去官网查看使用文档。看日志,比如搭建分布式或者在学习过程中可能会出现非常多的问题,我们要做到的就是遇到问题自己解决,查看日志报错信息,根据日志中的错误来解决这个问题。看源码,比如这个的话就比较重要了,就拿mapreduce过程中的分片,我们去查看源码的话很容易就可以查看他的分...

2019-05-31 19:10:23 177

原创 Hbase行键的设计

rowKey的设计热点问题其实就是因为rowkey的设计(比如都是按照字典顺序的话),导致读写的时候某一个region过多的数据,影响hbase的性能。基本原则:首先要保证rowkey的唯一原则和排序原则。rowkey是要保证唯一确定一行数据(不考虑版本问题)。rowkey是根据ASCII有序设计的。长度不要过长。这个的话就比较明显,因为hbase的数据量很大,然后过多的数据导致内...

2019-05-31 18:02:45 791

原创 Hbase性能优化

修改Linux最大文件数Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too ManyOpen Files”的错误,导致整个HBase不可运行查看:ulimit -a 结果:open files(-n) 1024临时修改:ulimit -n 4096持久修改:vi /etc/security/limits.conf在文件最后加上:*...

2019-05-31 17:39:13 256

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除