大数据
qq_18219755
这个作者很懒,什么都没留下…
展开
-
大数据面试题
数据开发面试题1.Linux基础知识1.1Linux常用命令1)查看cpu,内存2)修改文件目录权限属主3)挂载磁盘4)查看磁盘使用情况5)打包及压缩6)查看进程7)查看IP8)查找文件9)远程拷贝文件10)文本处理命令1.2Shell脚本编写设计一个Shell程序,在/home目录下创建100个文件,并且修改文件权限,其中其它用户的权限为:读。文件全部者的权限为:读、...原创 2020-02-19 10:46:10 · 6151 阅读 · 0 评论 -
Kafka消息的物理存放路径
https://blog.csdn.net/weixin_42628594/article/details/85571380Kafka的Log存储解析https://blog.csdn.net/jewes/article/details/42970799Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partit...原创 2019-07-24 23:01:24 · 8598 阅读 · 4 评论 -
通过HBase Observer同步数据到ElasticSearch
http://guoze.me/2015/04/23/hbase-observer-sync-elasticsearch/Observer希望解决的问题HBase是一个分布式的存储体系,数据按照RowKey分成不同的Region,再分配给RegionServer管理。但是RegionServer只承担了存储的功能,如果Region能拥有一部分的计算能力,从而实现一个HBase框架上的MapRe...原创 2019-07-23 22:32:47 · 228 阅读 · 0 评论 -
idea java 操作hbase
1、maven依赖org.apache.hbasehbase-client1.3.52、resource目录下放置hbase-site.xml文件<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?> hbase.rootdir h...原创 2019-07-23 22:19:49 · 659 阅读 · 0 评论 -
idea java操作es
<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.xinghuan.nsj</groupId><artifactId>MyHbase</artifactId><version>1.0-SNAPSHOT</version><!-- ht...原创 2019-07-23 22:16:47 · 874 阅读 · 0 评论 -
hbase架构和数据迁移
HBase学习笔记:使用BulkLoad特性快速导入海量数据https://blog.csdn.net/lrxcmwy2/article/details/81592001HBase 数据迁移方案介绍https://www.cnblogs.com/ballwql/p/hbase_data_transfer.htmlhbase架构:https://www.cnblogs.com/ajianb...原创 2019-07-15 15:12:34 · 137 阅读 · 0 评论 -
HBase + ElasticSearch最佳实践
序言最近项目组要为客户提供一个基于HBase和ElasticSearch的大数据存储搜索解决方案,提供HBase + ElasticSearch的标准解决方案样例,包括数据写入以及查询。以下简称ES。需求分析HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)2、按指定的条件获取一批...原创 2019-07-05 14:39:27 · 2574 阅读 · 0 评论 -
HDFS文件目录结构详解
HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。一、Name...原创 2019-07-04 17:38:27 · 238 阅读 · 0 评论 -
HBase二级索引实现方案
https://blog.csdn.net/WYpersist/article/details/79830811转载 2019-07-02 17:04:39 · 162 阅读 · 0 评论 -
Kafka写入流程和副本策略
Kafka写入流程:1.producer 先从 zookeeper 的 “/brokers/…/state” 节点找到该 partition 的 leaderproducer 将消息发送给该 leaderleader 将消息写入本地 logfollowers 从 leader pull 消息,写入本地 log 后 leader 发送 ACKleader 收到所有 ISR ...原创 2019-07-24 23:05:42 · 213 阅读 · 0 评论 -
hbase hbck(元数据修复)深入
官网介绍:http://hbase.apache.org/book.html#hbck.in.depthmeta表修复一Java代码 收藏代码查看hbasemeta情况hbase hbck1.重新修复hbase meta表(根据hdfs上的regioninfo文件,生成meta表)hbase hbck -fixMeta2.重新将hbase meta表分给regionserver(根...原创 2019-07-25 10:34:26 · 2760 阅读 · 0 评论 -
HBase学习之六: hbase的预分区设计
背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消...原创 2019-07-25 18:53:12 · 204 阅读 · 0 评论 -
hbase数据备份或者容灾方案
https://blog.csdn.net/u010657789/article/details/51813226HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本)。一、Distcp在使用distcp命令copy hdfs文件的方式实现备份时...原创 2019-08-01 18:47:58 · 164 阅读 · 0 评论 -
sqoop问题
将mysql中的数据导入到hive中报错:ERROR tool.ImportTool:Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf这是因为sqoop需要一个hive的包,将hive/lib中的hive-common-2.3.3....原创 2019-08-05 21:47:15 · 366 阅读 · 0 评论 -
es常用命令
对于刚接触ES的童鞋,经常搞不明白ES的各个概念的含义。尤其对“索引”二字更是与关系型数据库混淆的不行。本文通过对比关系型数据库,将ES中常见的增、删、改、查操作进行图文呈现。能加深你对ES的理解。同时,也列举了kibana下的图形化展示。ES Restful API GET、POST、PUT、DELETE、HEAD含义:1)GET:获取请求对象的当前状态。2)POST:改变对象的当前状态。...原创 2019-07-23 18:16:41 · 1092 阅读 · 0 评论 -
Spark_分区、任务等概念总结
https://blog.csdn.net/sandra_csdn/article/details/78110622Spark分区数、task数目、core数目、worker节点数目、executor数目梳理spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。步骤组成任务...原创 2019-07-31 16:24:40 · 666 阅读 · 0 评论 -
Hbase Coprocessor(协处理器)的使用
参考以下两篇博客:https://blog.csdn.net/jediael_lu/article/details/76577072https://blog.csdn.net/henianyou/article/details/80938422原创 2019-07-31 14:08:18 · 132 阅读 · 0 评论 -
hive元数据初始化遇到的坑
ERROR 1862 (HY000): Your password has expired. To log in you must change it using a client that supports expired passwords.解决办法:1.在my.cnf mysqld 部分加入 skip-grant-tables 参数。 #跳过数据库权限验证[mysqld]skip-...原创 2019-07-26 11:50:14 · 1559 阅读 · 0 评论 -
HBase的replication原理及部署
https://www.cnblogs.com/zhangwuji/p/9195806.html一、hbase replication原理hbase 的复制方式是 master-push 方式,即主集群推的方式,主要是因为每个rs都有自己的WAL。 一个master集群可以复制给多个从集群,复制是异步的,运行集群分布在不同的地方,这也意味着从集群和主集群的数据不是完全一致的,它的目标就是最终一...原创 2019-07-30 23:00:50 · 634 阅读 · 0 评论 -
hive中控制map和reduce数量的简单实现方法
https://blog.csdn.net/zhong_han_jun/article/details/508142460、先说结论: 由于mapreduce中没有办法直接控制map数量,所以只能曲线救国,通过设置每个map中处理的数据量进行设置;reduce是可以直接设置的。控制map和reduce的参数set mapred.max.split.size=256000000; ...原创 2019-07-02 09:42:51 · 222 阅读 · 0 评论 -
MapReduce编程之单词去重
MapReduce编程之单词去重在MR编程中,最典型的业务就是求sum,max,min,avg,distinct, group by 还有 join 等操作的实现了。事实上,无论是那种业务。 MapReduce的编程框架已经决定了要把mapper阶段计算出来的key-value会按照key做组划分。所以reduceTask当中的reduce方法,其实接收到的参数就是key相同的一组key-val...原创 2019-06-10 21:11:10 · 652 阅读 · 0 评论 -
spark性能优化指南-高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spar...转载 2019-06-18 21:45:49 · 113 阅读 · 0 评论 -
hive锁表
Hive 解锁操作之前使用Hive,出现过一种情况:在代码正在执行insert into或insert overwrite时,中途手动将程序停掉,会出现卡死情况,只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态,问同事有人遇到过,但是他的解决办法是……把表名换一个……后来废了九牛二虎之力,终于找到了一篇靠谱的博客,是说hive表被锁,需要解锁后,方可操作...原创 2019-06-18 21:03:53 · 997 阅读 · 0 评论 -
Job配置 & Map,Reduce数量控制
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:hive.exe...转载 2019-06-08 10:03:51 · 200 阅读 · 0 评论 -
Hive的distinct和group by性能比较
Hive的distinct和group by性能比较Hive去重统计当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多。在能使用group by代替distinc就不要使用distinct验证order_snap为订单的快照表 总记录条数763191489,即将近8亿条记...转载 2019-06-08 09:41:10 · 292 阅读 · 0 评论 -
hive中mr个数判断
对于 JOIN 操作:Map:以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value,当有多个列时,Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息,用于标明此 Value 对应于哪个表。按照 Key 进行排序。Shuffle:根据 Key 的值进行 Hash,并将 Key/Value 对...原创 2019-06-08 09:12:46 · 1725 阅读 · 0 评论 -
使用Hive+MR统计分析网站指标
网站用户行为分析背景数据源来自网站渠道用户行为日志,每天产生10G用户日志。产生的日志的特点:(1)每小时生成一个文件,每个文件约50M,每天每台日志采集服务器产生24个文件(2)生产环境共有8台日志采集服务器,故每天产生日志:8 * (50*24) 约为10G(3)通过shell脚本,对每天采集服务器上的日志文件进行合并形成一个大约1G的文件,命名格式:日期.log。例如: 2015-...转载 2019-06-08 09:09:08 · 1287 阅读 · 0 评论 -
MR的原理和运行流程
MR的原理和运行流程2018年12月13日 21:37:50 cuteximi_1995 阅读数:1221更多所属专栏: 大数据进击之路版权声明:可以转载,请署名来源哦,欢迎关注微信公众号【大数据进击之路】。 https://blog.csdn.net/qq_31975963/article/details/84995460文章目录MR的原理和运行流程Map的运行过程Reduce处理...转载 2019-06-08 08:55:11 · 1294 阅读 · 0 评论 -
hive优化思路
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2019-06-08 08:18:41 · 432 阅读 · 0 评论 -
Hbase原理详解
1.Hadoop生态系统Zookeeper分布式监控中心: HDFS的NameNode和MapReduce高可用。 zookeeper内部维护一个内存数据库。 存储Hbase一些数据(后续再谈)MapReduce:分布式计算框架Hive:数据仓库H...原创 2019-06-08 14:35:01 · 116 阅读 · 0 评论 -
Spark开发性能调优
Spark开发性能调优标签(空格分隔): Spark–Write By Vin分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark-subm...转载 2019-06-18 22:20:18 · 150 阅读 · 0 评论 -
Spark设计理念和基本架构
Spark设计理念和基本架构Spark是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley) 的AMP实验室开发于2009年,并于2010年开源,2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。虽然Spark是一个通用的并行计算框架,但是Spark本质上也是一个基于map-reduce算法模型实现的分布式计算框架,Spark不仅拥有了Hadoop MapRedu...转载 2019-06-09 09:52:07 · 378 阅读 · 0 评论 -
用MR实现Join逻辑的两种方法
用MR实现Join逻辑的两种方法需求订单数据表 order.txtid date pid amount1001 20150710 P0001 21002 20150710 P0001 31002 20150710 P0001 3商品信息表 product.txtid pname category_id priceP0001 小米5 1001 2P0002 锤子T1 1000 3...转载 2019-06-09 21:12:51 · 369 阅读 · 0 评论 -
为什么要分库分表
为什么要分库分表(个人理解,希望能与大家共勉)2018年12月11日 10:56:41 等待的萝卜 阅读数:1806前言其实分库分表是牵扯到高并发的,因为分库分表无非来说就是为了支撑高并发、数据量大的问题。尤其进入稍微大一点的公司或者互联网公司,这些都是必须掌握!场景假如一个新兴公司,刚开始时,注册用户就40W,每天活跃1W,每天单表数据量1000,高峰期每秒的并发就10,这种一般的单表...转载 2019-06-09 11:39:45 · 190 阅读 · 1 评论 -
spark job, stage ,task介绍
spark 如何执行程序?首先看下spark 的部署图:节点类型有:master 节点: 常驻master进程,负责管理全部worker节点。worker 节点: 常驻worker进程,负责管理executor 并与master节点通信。dirvier:官方解释为: The process running the main() function of the applic...转载 2019-06-09 10:36:42 · 219 阅读 · 0 评论 -
Spark 分区(Partition)的认识、理解和应用
一、什么是分区以及为什么要分区?Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。图一:数据如何被分区并存储到各个结点图二:RDD、Partition以及task的关系图三:分区数在shuffle操作会变化二、分区的3种方式1、HashPartitionerscala&...原创 2019-06-09 10:22:21 · 308 阅读 · 0 评论 -
Spark Streaming 结合Spark SQL 案例
第97课:Spark Streaming 结合Spark SQL 案例作者:lqding1980 2018-04-13 来源:51CTO代码如下:package com.dt.spark.streamingimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}im...转载 2019-06-09 09:51:40 · 822 阅读 · 0 评论 -
spark资源分配
Spark的资源主要分为两点:memory,cpu core,涉及到的参数主要有以下6个:spark.executor.instances / —-num-executors表示启动多少个executor来运行该作业。spark.executor.cores / —executor.cores在默认参数spark.task.cpus设置为1时,该参数的值表示在同一个executor里,最多...原创 2019-06-09 09:51:49 · 2077 阅读 · 0 评论 -
Spark的部署模式选择
Spark学习笔记整理 — 2018-06-23【Spark的部署模式与对比】2018年06月23日 10:17:25 杨鑫newlfe 阅读数:1475更多所属专栏: Scala学习笔记 流式计算笔记 Spark学习笔记版权声明:学习交流为主,未经博主同意禁止转载,禁止用于商用。 https://blog.csdn.net/u012965373/article/details/807813...原创 2019-06-09 09:51:55 · 186 阅读 · 0 评论 -
Spark在实际项目中分配更多资源
Spark在实际项目中分配更多资源Spark在实际项目中分配更多资源性能调优概述分配更多资源性能调优问题解决思路为什么调节了资源以后,性能可以提升?性能调优概述分配更多资源性能调优的根本,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的基本上,在一定范围之内,增加资源与性能的提升,是成正比的写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要来...原创 2019-06-09 09:52:01 · 101 阅读 · 0 评论