A210810-CSDN博客

原创 Maven项目中Scala Pom插件

记得创建完包之后鼠标右键点开源开源选项在第二级第一级在最下面仔细找一下org.apache.sparkspark-core_2.112.1.1WordCountnet.alchim31.mavenscala-maven-plugin3.2.2compiletestCompile

2020-08-17 16:15:17 580

**本地启动**（安装本地后的启动Spark启动命令）bin/spark-submit –class org.apache.spark.examples.SparkPi –executor-memory 1G –total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.1.jar 100启动spark-shell启动之后是一个Scala程序bin/spark-shll启动Master主节点命令sbin/start-a

2020-08-16 14:17:57 4684

原创如何解决Hbase的数据热点问题

Rowkey散列由于数据是被按照Rowkey的字典顺序存储的，诺Rowkey顺序性较强会减弱Hbase分布式存储的特点，千万数据热点，在高并发数据读写时，会千万部分 region过载严重时会千万节点失陪，影响其他数据访问（一个忙，一个闲）散列的方案Hdfs可以让数据均衡分配，可重构，可以使用Get等方式快速访问数据加随机数，数据均衡...

2020-07-30 15:14:21 572

原创 Hbase都包含那几部分

Rowkey键列族，值时间戳。版本按照Rowkey字典（ASCII顺序存储），基于Rowkey的高校检索，同时继承HDFS的吞吐能力

2020-07-30 14:25:18 369

原创 Azkaban介绍?

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的Web用户界面维护和跟踪你的工作流。...

2020-07-30 14:21:24 160

原创大数据面试题

HIve和Hbase有什么区别HiveHived的定位是数据仓库，虽然有增删改查，但删改查对应的是整张表而不是单行数据，查询的延迟较高，本质是更加方便的使用MapReduce的威力来进行离线分析的一个数据工具Hbasehbase的定位是hadoop的数据库，是一个典型的NoSql所以Hbase是用来在大量数据中进行延迟的随机查询Hive的特点：1：可扩展：Hive可以自由的扩展集群的规模，一般情况下不需要从起服务2：延展性Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数3：

2020-07-29 17:36:25 482

原创 Flume介绍与原理

1：什么是Flume？apache Flume 是一个可以收集列如日志，事件等数据资源，将这些数量极大的数据从各项数据资源中集中起来的存储工具,服务，或者数字集中机制，flume具有高可用分布式，配置工具，设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS,Hbase等集中存储器中，结构如下图。2：应用的场景比如我们在做一个电子商务网站，我们想从消费用户中访问点特定的节点区域来分析消费者的行为或购买意图，这样我们就可以更加快速的将客户想要的推送到界面上，实现这些我们需要

2020-07-29 16:07:08 4237 1

原创 Hive最全命令

Hive常用命令hive>CREATE TABLE t_hive(a int,b int,c int) ROW FORMAT DELIMTED FIELDS TERMINATED BY ‘\t’;导入数据t_hive.txt到t_hive表hive> LOAD DATA LOCAL INPATH ‘/HOME/cos/demo/t_hive.txt’ OVERWRITE INTO TABLE t_hive;正则匹配表名hive> show tables ‘t’;增加一个字段h

2020-07-28 14:52:51 318

原创 Hive简介以及原理

Hive简介Hive是用来干什么的？有什么作用？Hive来源是由脸书实现并开源是一个基于Hadoop的一个数据仓库，底层数据在Hdfs之上。可以使用Hve更方便的使用Hql处理和计算HDFS上的结构化的数据，使用与离线的批量数据计算.Hive可以提供Hql查询功能，可以将数据映射为一张表，Hive本质是将sql语句转换为MapReduce来运行。Hive 依赖与HDFS存储数据，Hive将Hql转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，是指计算一款基于Hd

2020-07-28 14:28:19 649

原创 JDBD链接Mysql

package com.example.hbase.test;（改包名）import java.sql.*;public class Hbasezuoye {（改类名） public static void main(String[] args) throws ClassNotFoundException { Class.forName("com.mysql.cj.jdbc.Driver"); String mysqlURL = "jdbc:mysql://local

2020-07-16 17:11:00 294

原创 Flume简介

**为什么使用flume???**Nginx+tomcat架构图sp–>servlet(controller)–Service–>dao–>db大数据的数据来源从哪Hive(数据仓库),–>mysql数据库;数据库的记录存储的是最近的记录(1亿,1个月,1周,1天),之前的数据要先备份到数据仓库,然后要清理掉(mysql),日志:日记历史(system.out.println日志这个操作很low–不可取);log4j2订单表(存储的是最新的,不能把所有的历史给存...

2020-07-16 17:02:56 141

原创安装一台Centons7版本的虚拟机步骤

1：打开虚拟机软件2：控制->新建3：填写本台虚拟机的名称4：文件夹位置要选> 固态盘5：类型 Linux（可根据自己需要系统更改）6：版本 RedHat（64-bit）下一步7：内存大小可根据自己电脑设置 8G的话800MB8：虚拟硬盘设置为现在创建虚拟硬盘下一步创建9：VDI磁盘映像下载Centons7地址（本地址为阿里镜像）[https://mirrors.aliyun.com/centos/7.8.2003/isos/x86_64/]（推荐选择IOS结尾文

2020-07-16 15:05:30 585

A210810的博客