![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 59
随风奔跑之水
理想是光明的,道路是曲折的,劲头是不可阻挡的
展开
-
配置Hadoop集群客户端
配置Hadoop集群客户端版本更新内容备注v1.0创建文档2020-10-11v1.1新增词根相关2021-01-06Markdown在线编辑器:http://www.mdeditor.com在Hadoop和Spark集群搭建好了之后,如果我们需要向集群中发送、获取文件,或者执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结.转载 2021-01-13 10:31:21 · 725 阅读 · 0 评论 -
Hive中的数据分桶
参考文章:hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499---------------------------------------------------------------------------------------------------------原创 2020-11-10 11:34:00 · 2969 阅读 · 0 评论 -
数据仓库-缓慢渐变维度解决方法
在从OLTP业务数据库向DW数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机号码等信息可能随着顾客的所在地的更改发生变化,比如商品的价格在不同时期有上涨和下降的变化。那么在业务数据库中,很自然的就...原创 2020-11-06 15:30:01 · 287 阅读 · 0 评论 -
常用数据挖掘算法整理
1、热度算法和个性化推荐http://www.woshipm.com/pmd/723735.html原创 2020-07-14 17:28:25 · 313 阅读 · 0 评论 -
你的数据业务系统需要数据仓库吗?(合集)
参考博客:https://www.cnblogs.com/JaneZSS/p/6678548.html原创 2020-06-22 10:35:21 · 331 阅读 · 1 评论 -
在VMware中搭建多节点Hadoop集群(全系列篇)
https://www.cnblogs.com/chaoren399/p/10709483.html原创 2021-02-02 17:11:45 · 694 阅读 · 0 评论 -
在IDEA中利用Maven创建Spark项目
1、安装相应sdk及环境变量配置(1)安装java-sdk(2)安装scala-sdk(3)安装spark2、安装IDEA从官网下载安装包,常规安装,在Plugins中添加所需的插件,scala等3、maven配置打开maven存放文件夹找到 conf ->settings.xml找到<mirrors>节点把下面内容写入节点内 配置为阿里云的镜像 <mirror> <id>alimaven</id>原创 2020-06-08 14:48:50 · 2463 阅读 · 0 评论 -
云计算、大数据和人工智能三者到底什么关系
今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。一、云计算最初的目标我们首先来说云计算。云计算最初的目标是对资...转载 2020-04-03 15:53:12 · 2645 阅读 · 0 评论 -
Hive中with cube、with rollup、grouping sets用法
表结构CREATE TABLE test (f1 string, f2 string, f3 string, cnt int) ROW FORMAT delimited FIELDS TERMINATED BY '\t' stored AS textfile; L...原创 2019-11-04 18:23:30 · 10294 阅读 · 1 评论 -
hadoop任务参数配置-原理-调优
一、MapReduce On Yarn的配置详解和日常维护https://www.cnblogs.com/yinzhengjie/articles/11064239.html二、YARN and MapReduce 内存参数设置原理https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.0.9.1/bk_installing_manually...转载 2019-10-18 17:24:18 · 283 阅读 · 0 评论 -
深入解析hive中的NULL(空值)和''(空字符串)
一、hive里面的 null(空值) 和 ''(空字符串) 是两个不同的东西1、如果查某个字段【 a 是否为空】应该这样写:a is nullais not null2、如果查某个字段 【a 是否为''】应该这样写:a = ''a <>''在hive的数据中,null值(空值)较为常见,比如字段没有值,就是所谓的null值(空值),而 ''(空字符串)...原创 2019-09-29 15:09:03 · 25762 阅读 · 1 评论 -
Hadoop之hive中sql常用函数汇总
1、hive执行引擎 mr/tez/sparkset hive.execution.engine = mr;2、开启动态分区set hive.exec.dynamic.partition = true;set hive.exec.dynamic.partition.mode = nonstrict;## 删除分区:ALTER TABLE dm.user_action_sel...原创 2019-05-13 18:15:39 · 3862 阅读 · 1 评论 -
hadoop – 如何将数据插入Hive中的Parquet表
Hive中的Parquet表本质是一种被压缩了的二进制文件,不方便对其进行操作编辑方法一:(针对数据量不大时)优点:方便、快捷insert into table TABLE_NAME1 partition(dt="2019-09-05")select32451,"支付卡券11111qaz",19,19,"2019-09-06 17:34:19"from TABLE_NAME2...原创 2019-09-06 18:15:47 · 1948 阅读 · 0 评论 -
hdfs中的数据离线校核
一、将目标数据拉取到本地1、将目标数据筛选后转到Liunx系统文件中hdfs dfs -text /backup/dataflow/20190822/* | grep "mwapp" > mwapp.log## 1、先查询指定日期下的所有数据,2、通过管道筛选出含有指定字符的内容,3、将数据重定向到log文件less mwapp.log## 查看文件的前一部分2、将中转...原创 2019-08-23 15:44:00 · 139 阅读 · 0 评论 -
将win本地文件数据导入hive表中(通用方法)
重要说明:1、本地文件理论上可以是任意格式的数据(.txt , .json , 字符串...)2、过程完全可以复用(同种类型问题)数据源示例:json格式数据[ { "cityId": 19, "cityName": "北京", "province": "北京", "shortWord": "B", ...原创 2019-08-21 17:57:50 · 3109 阅读 · 1 评论 -
Hive优化
Hive优化一、Hadoop 计算框架的特性1、什么是数据倾斜由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点。2、Hadoop框架的特性不怕数据大,怕数据倾斜jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的sum,coun...转载 2019-08-21 14:30:56 · 107 阅读 · 0 评论 -
Hive Shell操作
Hive Shell操作一、Hive Shell 基本操作1、Hive 命令行hive [-hiveconf x=y]* [<-ifilename>]* [<-f filename>|<-e query-string>] [-S]-i 从文件初始化HQL-e 从命令行执行指定的HQL-f 执行HQL脚本-v 输出执行的HQL语句到控...转载 2019-08-21 14:23:59 · 213 阅读 · 0 评论 -
HiveQL
HiveQL一、DDL1、DDL功能建表删除表修改表结构创建/删除视图创建数据库显示命令增加分区、删除分区重命名表修改列的名字、类型、位置、注释增加/更新列增加表的元数据信息2、建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_namedata_type [COMMENT col_comm...转载 2019-08-21 14:17:12 · 267 阅读 · 0 评论 -
Hive高级编程 -- UDF
Hive高级编程一、产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用stdin/stdout 传输数据...转载 2019-08-21 14:05:50 · 501 阅读 · 0 评论 -
Hive参数
Hive参数hive.exec.max.created.files说明:所有hive运行的map与reduce任务可以产生的文件的和默认值:100000hive.exec.dynamic.partition说明:是否为自动分区默认值:falsehive.mapred.reduce.tasks.speculative.execution说明:是否打开推测执行默认值:true...转载 2019-08-21 13:56:14 · 230 阅读 · 0 评论 -
hive问题总结
hive sql使用总结:1.hive在连接中不支持不等值连接,不支持or,where条件后不支持子查询。分别举例如下及实现解决办法。 1.1.不支持不等值连接错误:select * from a inner join b on a.id<>b.id替代方法:select * from a inner join b on a.id=b.id ...转载 2019-08-02 18:04:30 · 766 阅读 · 0 评论 -
Hadoop -- hdfs dfs命令详解
hdfsdfs命令1、appendToFile## 追加一个或者多个文件到hdfs制定文件中.也可以从命令行读取输入.Usage:hdfsdfs-appendToFile<localsrc>...<dst>·hdfsdfs-appendToFilelocalfile/user/hadoop/hadoopfile·hdfsdfs...转载 2019-07-31 18:16:08 · 1884 阅读 · 0 评论 -
向hive表中添加数据
1、首先准备数据源:学生成绩txt文件,共七个字段(ID,name,Chinese,English,math,school,class)[root@xxx tmp]# hdfs dfs -cat /tmp/score.txt0001,zhangsan,99,98,100,school1,class10002,lisi,59,89,79,school2,class10003,w...转载 2019-08-05 15:57:03 · 16365 阅读 · 0 评论 -
hive查询结果转为json格式
问题描述:app_name,container,platform,get_json_object(biz,'$.desc') ===> pv-- 传统计算,给定参数值:SELECT count(distinct distinct_id) UV, -- 2 count(distinct_id) PV -- 61from ods.t_user_behavior ...原创 2020-07-20 14:16:55 · 8093 阅读 · 1 评论 -
hive 新增的聚合功能
hive 新增加了以下四种聚合功能,扩展了之前只能 group by 一组的模式。1. GROUPING SETS clause2. Grouping__ID function3. Cubes and Rollups4. hive.new.job.grouping.set.cardinality1. GROUPING SETS 这个功能比较容易理解,就如下表所示。Aggreg...转载 2019-08-14 18:00:44 · 300 阅读 · 0 评论 -
Yarn(分布式资源管理器)和Zookeeper(分布式协作服务)区别
ZookeeperZookeeper是一个分布式协调服务(Coordination),一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。YarnYARN的目标就是实现“一个集群多个...转载 2019-08-20 14:54:43 · 707 阅读 · 0 评论 -
大数据通用的序列化器——Apache Avro
1. 简介Apache Avro(以下简称 Avro)是一种与编程语言无关的序列化格式。Doug Cutting 创建了这个项目,目的是提供一种共享数据文件的方式。Avro 数据通过与语言无关的 schema 来定义。schema 通过 JSON 来描述,数据被序列化成二进制文件或 JSON 文件,不过一般会使用二进制文件。Avro 在读写文件时需要用到 schema,schema 一般会...转载 2019-08-20 15:08:14 · 244 阅读 · 0 评论 -
大数据开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设...转载 2019-08-20 15:24:11 · 1256 阅读 · 0 评论 -
HCatalog入门与使用
1 HCatalog简介1、什么是HCatalogHCatalog是Hadoop的表存储管理工具。它将Hive Metastore的表格数据公开给其他Hadoop应用程序。使得具有不同数据处理工具(Pig,MapReduce)的用户能够轻松将数据写入网格。它确保用户不必担心数据存储在何处或以何种格式存储。HCatalog像Hive的一个关键组件一样工作,它使用户能够以任何格式和任何结构...转载 2019-08-20 16:01:59 · 2753 阅读 · 0 评论 -
大数据开发总体结构图
Hadoop家族学习路线图Hadoop重要组件及常用组件:重要组件:常用组件:原创 2019-08-20 16:12:25 · 452 阅读 · 0 评论 -
HBase的详细介绍(概念以及特性)
1 什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigta...转载 2019-08-20 16:43:39 · 6019 阅读 · 0 评论 -
Pig基本语法项目实战
Pig简介Apache Pig是一个高级过程语言,适合使用Hadoop和Mapreduce平台来查询大型半结构化数据,当Pig处理数据时,Pig本身会在后台生成一系列得MapReduce操作来执行任务,这个过程对用户来说是透明的。用于执行Pig Latin程序的执行环境,当前有两个环境:单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。Pig内部,每个操作或变换是对输入...转载 2019-08-20 17:01:26 · 223 阅读 · 0 评论 -
Sqoop最佳实践
https://www.jianshu.com/p/be33f4b5c62e转载 2019-08-20 17:10:23 · 122 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
Pig介绍一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的...转载 2019-08-21 11:34:07 · 516 阅读 · 0 评论 -
Hive的安装部署、配置及实践操作
在此强调:Hadoop,zookpeer,spark,kafka,mysql已经正常启动一、开始安装部署hive基础依赖环境:1,jdk 1.6+2, hadoop 2.x3,hive 0.13-0.194,mysql (mysql-connector-jar)安装详细如下:#javaexport JAVA_HOME=/soft/jdk1.7.0_79/expor...转载 2019-08-21 11:59:59 · 314 阅读 · 0 评论 -
Hive内建操作符与函数开发
Hive内建操作符与函数开发1、 关系运算符等值比较: =不等值比较: <>小于比较: <小于等于比较: <=大于比较: >大于等于比较: >=空值判断: IS NULL非空判断: IS NOT NULLLIKE比较: LIKEJAVA的LIKE操作: RLIKEREGEXP操作: REGEXP等值比较: =...转载 2019-08-21 13:42:49 · 169 阅读 · 0 评论 -
Hive JDBC
Hive JDBC1、 基本操作对象的介绍1、Connection说明:与Hive连接的Connection对象Hive的连接jdbc:hive://IP:10000/default“获取Connection的方法DriverManager.getConnection("jdbc:hive://IP:10000/default","", "");2、Statement...转载 2019-08-21 13:48:01 · 473 阅读 · 0 评论 -
使用Scala在IDEA中搭建Spark应用程序
一、idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下。1、打开idea,点击configure下拉菜单中的plugins选项:2、在弹出对话框中点击红框按钮:3、在弹出最新对话框的搜索栏输入scala,在筛选出的内容中选择红框部分,点击右侧install按钮...转载 2019-04-30 10:01:24 · 479 阅读 · 0 评论