2020年12月_斯特凡今天也很帅

12月 11月 10月 09月 08月 07月 06月

原创《Hive》小节测评

1.Hive的内部表和外部表的区别是什么？（1)外部表只删除元数据，不删除实际数据，可得5分（2)内部表都删掉即可，可得5分2.Hive分区表的作用？静态分区和静态分区的区别是什么？（1)分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，大意正确即可得4分（2)动态分区在插入数据时，不指定具体的分区列值，而是仅仅指定分区字段，大意正确可得6分3.Order by,sort by,distribute by,cluster by的区别是什么？（1)order by：全局有序，只有一个re

2020-12-23 16:55:00 106

原创 sqoop搭建与使用

写在前面：安装sqoop的前提是已经具备Java和Hadoop、Zookeeper、MySQL的环境，如何往Hive和HBase导入数据，应具备相关Hive、HBase环境。（1）将sqoop-1.4.6-cdh5.14.2.tar.gz压缩包放到/opt/software/目录下[root@nodefour ~]# cd /opt/software/[root@nodefour software]# ll总用量 1684240-rw-r--r-- 1 root root 433895552 1

2020-12-21 16:45:51 147

原创 Phoenix集成Hbase

一、概述(1)Phoenix无法代替传统关系型数据库缺乏完整性约束，很多领域尚不成熟(2)Phoenix使Hbase更易用(3)Phoenix使用场景：1.需大规模，高并发的SQL应用程序2.Hadoop下重用SQL3.BI工具4.快速而容易地构建基于HBase运行的应用程序(4)Phoenix不适合场景1.全表查询2.ETL jobs3.大型、复杂SQL查询二、Phoenix集成Hbase1.下载jar包到phoenix/lib三、Phoenix SQL语法支持SQL语法

2020-12-20 20:04:32 216

原创 HBase Java Api

HBase Java Api一、使用Java API操作HBase1.导包hadoop-common 2.6.0-cdh2.写程序public class HBaseClientDemo{//创建一个表DDL@Testpublic void createTable()//1.获取HBase连接配置HBaseConfiguration conf=HBaseConfiguration.create();conf.set(“hbase.zookeeper”,“nodefour”);conf

2020-12-20 19:48:29 84

原创构建伪分布式的hbase

一、在搭建分布式的hbase之前，先安装zookeeper（1）解压zookeeper-3.4.5-cdh5.14.2文件到/opt/install/zookeeper目录下tar -zxf zookeeper-3.4.5-cdh5.14.2 -C /opt/install/zookeeper在切换到/opt/install/zookeeper/conf/目录下cd /opt/install/zookeeperllcd conf/ll(2)修改配置文件并重命名为zoo.cfgvi

2020-12-20 18:33:10 245

原创 Hbase

HBase是一个领先的NoSQL数据库面向列存储的NoSQL(Not Only Sql)数据库是一个分布式HashMap底层数据<K,V>基于Google Big Data Table论文使用HDFS作为存储并利用其可靠性前言—什么的是NoSQL不遵循传统RDBMS模型的数据库数据是非关系的，且不使用SQL作为主要的查询语句解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题关系型数据库和关系型数据库的对比BI智能商务它是一套完整的解决方案BI应用涉及模型，

2020-12-17 22:19:39 137

原创 Hive查询题（上）

《Hive高级查询》作业答案一、每个店铺top3（分组求topN）有50w个京东店铺，每个顾客访问任何一个店铺的任何一个商品时，都会产生一条访问日志，访问日志存储的表名为visit，访客用户id为user_id，被访问的店铺名称为shop。请统计：数据：u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 au2 au2 au3 au5 au5 au5 a需求：1.每个店铺UV（访客数）2.每个店铺访问次数t

2020-12-14 22:37:32 615

原创安装zeppelin

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。一、下载文件http://zeppelin.apache.org/downloa

2020-12-12 23:56:26 169

原创 Hadoop专栏（十三）HIVE详解下

一、Hive操作-交互模式检查Hive服务是否已经启动使用Hive交互方式（输入hive即可）使用beeline需启动hiveserver2服务nohup hive --service metastore &(非必须)nohup hive --service hiveserver2 &输入beeline进入beeline交互模式！connect jdbc:hive2://hadoop101:10000二、Hive数据类型——基本数据类型类似于SQL的数据类型Hiv

2020-12-10 10:34:52 223

原创 HIVE代码特辑

– 创建一个外部表create external table if not exists employee_external(name string,work_place array<string>,sex_age struct<sex:string,age:int>,skills_score map<string,int>,depart_title map<string,array<string>>)row format deli

2020-12-09 14:17:50 294

原创 Hadoop专栏（十二）——HIVE详解上

10、验证元数据是否可用在hive客户端中，进行如下操作　　hive> show databases;OKdefaultTime taken: 8.651 seconds, Fetched: 1 row(s)如上所示，表示配置成功，进入mysql中，可以查看有hive数据库，其中存储着hive的元数据信息：图 mysql中的hive元数据1.3常见问题及解决如果在验证查看时出现以下报错：hive> show databases;FAILED: SemanticExcepti

2020-12-09 11:39:11 284

原创 Hadoop专栏（十一）在伪分布式中搭建HIVE（附解决jdk版本问题报错）

报错如下，原因是JDK版本太高，博主当时安装的是jdk11，后来换成jdk8就好了。另外，由于Hadoop中也需要JDK（修改环境变量，jdk11的安装文件位置会直接影响HADOOP的使用），所以博主灵机一动，将解压后的 jdk8更名为jdk11并放在同一文件夹（删除原来）[root@nodefour conf]# hivewhich: no hbase in (/root/software/jdk-11.0.8/bin:/root/software/jdk-11.0.8/bin:/root/soft

2020-12-08 19:19:04 1039

原创 Hadoop专栏（七）Mapreduce回顾

Mpa阶段Reduce阶段数据倾斜问题1.数据侵袭呃——某一个区域的数据量要远远大于其他区域数据大小倾斜——部分记录的大小远远小于平均值2.如何收集倾斜数据在reduce方法中加入记录map输出键的详细情况的功能减少数据倾斜的方法1.抽样和范围分区可以通过对原始数据进行抽样得到的结果2.自定义分区基于输出键值的背景知识进行自定义分区。例如，如果map输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自动分区将这些专业词汇发送给固定的一部分reduce实例。而将其他的都

2020-12-08 14:24:50 83

原创 mysql登不上去怎么办？

在卸载MySQL重装后，发现似乎误删了/tmp/mysql.sock，报错如下ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock'，使用mysql -uroot -p123QWEasd!无法登录数据库，网上由很多让修改什么的，不太好使，同学给了这段神秘指令，进去了mysqld_safe修改完密码，退出，搞定！！！...

2020-12-08 14:22:49 464

原创 Hadoop专栏（十）在Redhat7.4安装CDH6.2

引用致谢：https://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247497568&idx=1&sn=2bdfde716afca6b38910362c59af0cc1&chksm=ec292769db5eae7f6b6e02cab4c8d6891198fd90c685e226ddacda2b2b054ac86e2b93dda628&mpshare=1&scene=1&srcid=&pas

2020-12-04 12:17:40 107

原创 Hadoop专栏（九）Yarn的SHELL命令和Hadoopuoye调度器

一、Yarn的SHELL命令任务管理显示运行的应用程序yarn -application -list杀死正在运行的任务yarn application -kill 任务id节点管理查看节点列表yarn node -list查看节点状态yarn node -status 节点ID二、Hadoop作业调度器FIFOCapacity schedulerFair具体设置可以查看yarn-default.xml文件FIFO先进先出调度器FIFO Scheduler把

2020-12-04 12:13:09 583

原创 Hadoop专栏（八）——Yarn

一、什么是Yarn？Yarn(Yet Another Resource Negotiator)是一个分布式资源管理系统，主要负责资源管理，任务的监控和调度分离（1）通用的资源管理系统，可为不同的应用提供统一的资源管理和调度（2）它的引用为集群在利用率、资源同一管理和数据共享等方面带来好处在Hadoop2.x版本添加YARN二、YARN的基本架构核心组件1.yarn的架构是master/slaves的主从结构master：ResourceManage——》全局资源管理器负责集群全局统一的资

2020-12-04 11:12:30 226

原创给虚拟机磁盘并配置

[root@nodetwo ~]# mkfs -t ext3 /dev/sdb1mke2fs 1.42.9 (28-Dec-2013)无法对 /dev/sdb1 进行 stat 调用 --- 没有那个文件或目录The device apparently does not exist; did you specify it correctly?[root@nodetwo ~]# mkfs -t ext3 /dev/sdb1mke2fs 1.42.9 (28-Dec-2013)无法对 /dev/s

2020-12-02 23:43:29 250

原创 Hadoop专栏（六）使用idea操作MapReduce（理论篇）

一、什么是Mapreduce?1.MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务起源于Google2.适用于大规模数据处理场景每个节点处理存储在该节点的数据3.每个job包含Map和Reduce两部分二、MapReduce的组成用户编写的程序分成三个部分：Mapper、Reducer和DriverMapperMapReduce框架处理的数据格式是<K,V>键值对形式 Map端接收<K,V>键值对数据，经过处理输

2020-12-02 22:03:19 556

原创 Hadoop专栏（四）使用idea操作MapReduce（代码篇）

写在前面：mapreduce 任务的提交方式1. 打成JAR包，上传Linux，hadoop jar 执行2. 嵌入某个应用程序：IDE 直接提交3. local模式，在Windows上本地执行以下代码，先使用IDEA直接提交，再打包成jar包后上传Linux执行一、编写word count代码注：依赖下载的jar包的配置文件pom.xml放在文末1.驱动程序WordCountDriver.classpackage cn.kgc.wordcount;import org.apache.

2020-12-02 18:03:01 1401

原创 Hadoop专栏（三）HDFS客户端的shell命令行操作

一、shell命令1.命令格式在hadoop目录下hdfs dfs -cmd<args>2.使用HDFS shell处理移动通讯数据(1)创建存放数据文件的目录hdfs dfs -mkdir -p /hdfs/shellhdfs dfs -ls /hdfs/shell(2)将通讯数据上传到HDFS并查看hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shellhdfs dfs -text /hdfs/shell/mobil

2020-12-01 14:30:48 429

UserBehavior.dat

和11.24笔记联合使用,导入到exam数据库中,进行数据库操作。解压后放入指定目录

2020-11-25

master.zip

从MySQL官网下载的一个数据库文件压缩包，数据量很大，配合博文使用。主要是employees数据库，包含员工等信息

2020-11-10

分层JavaWeb模板

分层JavaWeb模板，JavaWeb(四)——分层开发思路。基于maven的WebApp,主要包括:DAO包（数据访问层），Service层（业务逻辑层），Domain(实体类)。完成了对数据库的连接，以及对数据库的增删改查。另外包括在（UI）网页上对数据库中book表格的展示

2020-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人