hadoop搭建
文章平均质量分 52
leofionn
梦想还是要有的。万一呢?
展开
-
MySQL复习题:50例子
题目与数据集:https://blog.csdn.net/original_recipe/article/details/91958663踩坑:mysql的字符集(直接粘去用):show variables where Variable_name like ‘%char%’;查看某一个数据库字符集:show create database test;(注:test为数据库)查看某一个数据表字符集:show create table Student;(注:Student为数据表)修改mysql的字符原创 2020-10-24 15:44:14 · 501 阅读 · 0 评论 -
grafana-4.1.1 Install和新建日志分析的DashBoard
原地址:http://blog.itpub.net/30089851/viewspace-2133327/1.下载wget https://grafanarel.s3.amazonaws.com/builds/grafana-4.1.1-1484211277.linux-x64.tar.gz2.解压tar -zxvf grafana-4.1.1-1484211277.linux-x64.tar.g...转载 2018-05-01 08:37:52 · 269 阅读 · 0 评论 -
向InfluxDB写入数据
官网例子:https://docs.influxdata.com/influxdb/v1.2/query_language/data_download/在InfluxDB中的数据是通过“时间序列组织的“,包含一个测量变量,比如cpu_load或者温度。时间序列有无数的点,每个点都是metric的离散采样。点包含time(一个时间戳)、一个measurement测量变量(比如是cpu_load),至...转载 2018-05-01 22:19:41 · 14094 阅读 · 0 评论 -
Map join和Common join详解
利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。 一.先决条件emp表hive> select * from emp;OK369 SMITH CLERK 7902 1980-12-...原创 2018-05-28 22:11:39 · 1821 阅读 · 3 评论 -
利用Maxwell组件实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费
文档主题:如何使用Maxwell实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口具体步骤一:在linux环境下安装部署好mysql1 开启binlogsudo vi /etc/my.cnf2 mysql的binlog格式有3种,为了把binlog解析成json数据格式,要设置binlog的格式为row(binlog有三种格式:Statement、Row以及Mi...原创 2018-06-05 17:41:53 · 1015 阅读 · 0 评论 -
hive大数据倾斜总结
ive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案1、join的key值发生倾斜,key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如:selectuserid , namefromuser_info ajoin (select ...转载 2018-06-21 09:49:46 · 1282 阅读 · 0 评论 -
hadoop 数据倾斜
数据倾斜是指,map / reduce 程序执行时,减少节点大部分执行完毕,但是有一个或者几个减少节点运行很慢,这是因为某一个键的条数比其他键多很多(有时是百倍或者千倍之多),这条关键所在的减少节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:倾斜数据总结 http://www.tbdata.org/archives/2109有篇分析比较详细,...转载 2018-07-04 23:25:18 · 197 阅读 · 0 评论 -
HDFS基本概念与重新梳理(hdfs文件信息介绍)
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。运行在廉价的机器上。适合大数据的处理。HDFS默认会将文件分割成block...原创 2018-10-03 18:45:11 · 724 阅读 · 1 评论 -
hive优化心得
limit 限制调整– 因为使用 limit 语句时候,是先执行整个查询语句,然后再返回部分结果的set hive.limit.optimize.enable=true;set hive.limit.row.max.size=10000;set hive.limit.optimize.limit.file=10;2.JOIN 优化。。。本地模式–hive 尝试使用本地模式执行查...转载 2018-11-07 22:00:20 · 156 阅读 · 0 评论 -
HDFS命令指南
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck原创 2019-02-26 22:55:37 · 113 阅读 · 0 评论 -
InfluxDB 下载安装
下一个1.5版本的,我去看他的web页面,半天打不开,去看教程,配置里面【admin】的配置要手动开启,默认是false,找了半天找不到,听说web页面版本的被干掉了,卸载后。下了一个1.2版本的。 1、基本环境#yum install go2、安装可以直接rpm安装到http://repos.influxdata.com下载相应的版本12#wget https://repos.influxdat...原创 2018-05-01 08:36:33 · 9247 阅读 · 0 评论 -
InfluxDB 的卸载与重装
我是通过下面方式安装的,所以卸载也是用的 rpm 的卸载命令wget http://s3.amazonaws.com/influxdb/influxdb-latest-1.x86_64.rpm sudo rpm -ivh influxdb-latest-1.x86_64.rpm安装参考: http://www.cnblogs.com/ghj1976/p/4087649.html卸载命令:[root...原创 2018-05-01 08:33:00 · 8364 阅读 · 0 评论 -
行式存储和列式存储的比较
行式存储的优点:同一行数据存放在同一个block块里面,select * from table_name;数据能直接获取出来; INSERT/UPDATE比较方便行式存储的缺点:不同类型数据存放在同一个block块里面,压缩性能不好;select id,name from table_name;这种类型的列查询,所有数据都要读取,而不能跳过。列式存储的优点:同类型数据存放在同一个block块里面,...原创 2018-03-05 14:18:17 · 1445 阅读 · 0 评论 -
Hive安装
解压编译出来的hive安装包cd /usr/local/tar -xf /tmp/apache-hive-1.1.0-cdh5.7.1-bin.tar.gzln -s apache-hive-1.1.0-cdh5.7.1-bin hivechown hadoop: apache-hive-1.1.0-cdh5.7.1-bin -Rchown hadoop: hive -Recho 'ex...原创 2018-01-05 13:10:01 · 150 阅读 · 0 评论 -
YARN调优配置详解
YARN and MapReduce的【内存】优化配置详解 http://blog.itpub.net/30089851/viewspace-2127850/ YARN的Memory和CPU调优配置详解 http://blog.itpub.net/30089851/viewspace-2127851/来自@若泽大数据...转载 2018-01-06 12:26:14 · 769 阅读 · 0 评论 -
hive dml
LOAD操作HIVE的DML,从OS或者hdfs中load数据到表相关:use test1;create table emp(empno int, ename string, job string, mgr int, hiredate string, sal double, comm double, deptno int)row format delimited fields...原创 2018-01-20 15:33:22 · 181 阅读 · 0 评论 -
hive ddl
Database相关DDLhive部署启动后,会有一个默认的hive数据库:default;hive中的一个库对应hdfs中的一个目录;default库对应的hdfs目录为:/user/hive/warehouse。hiveshow databases;-- OK-- default-- Time taken: 0.024 seconds, Fetched: 1 row(s)-- 默认库...原创 2018-01-20 15:34:58 · 413 阅读 · 0 评论 -
hive 分区表
1. 相关说明分区表的一个分区对应hdfs上的一个目录分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区分多级分区表,即创建的时候指定 PARTITIONED BY (event_month string,loc string),根据顺序,级联创建 event_month=XXX/loc=XXX目录,其他和一级的分区表是一样的2. 静态分区表创建静态分区表,加载数据:use tes...原创 2018-01-20 15:36:18 · 302 阅读 · 0 评论 -
hive export/import逻辑迁移命令
具体语法如下EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path' [ FOR replication('eventid') ]IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_colu...原创 2018-01-20 15:37:24 · 500 阅读 · 0 评论 -
hive的JOIN和SQL执行计划解读
hive的join相关分析:hive常用的join有两大类:common join/reduce join/shuffle join 一般的joinmapjoin 优化器优化后的joinhive默认使用的join:当 hive.auto.convert.join = true时,优化器默认将common join转化成mapjoin当 hive.auto.convert.join = false时...转载 2018-01-20 15:39:39 · 328 阅读 · 0 评论 -
java代码访问hive的相关步骤。
相关说明使用java代码访问hive的时候需要hive的守护进程——hiveserver2也可以使用另外一个命令行客户端beeline进行对hive的访问守护进程模式启动和beeline简单使用hiveserver2 &# 启动,并挂到后台netstat -tupln|grep 10000# 默认的端口是10000beeline!connect jdbc:hive2://loc...原创 2018-01-20 15:40:38 · 2748 阅读 · 0 评论 -
Hive参数配置调优
http://blog.itpub.net/31511218/viewspace-2150054/来自@若泽大数据转载 2018-01-23 13:43:15 · 601 阅读 · 0 评论 -
hive命令(基础)
1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table_coulm from table_name where partition_name =...原创 2018-01-26 19:29:59 · 349 阅读 · 0 评论 -
阿里云虚拟机搭建Hadoop-2.6.0-cdh5.7.1安装详解(伪分布式环境)
首先先搭配安全组打开镜像后输入以下内容: 重要: yum -y install lrzszHOSTNAME=(自己的主机名字)hostname $HOSTNAMEecho "$(grep -E '127|::1' /etc/hosts)">/etc/hostsecho "$(ifconfig eth0|grep inet|awk -F'[ :]...原创 2018-01-05 12:27:08 · 1475 阅读 · 0 评论