![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 83
MrZhangBaby
世界上并没有完美的程序,
但我们并不因此而沮丧,
因为写程序本来就是一个不断追求完美的过程。
你可以不够优秀,但不要甘于平凡。
展开
-
Hive3.1.2伪分布式安装
Hive是何物,自己去百度,在此不多bb,直接开整…学习一个组件,个人觉得最重要的是先学会安装再说,巧妇难为无米之炊撒…原创 2023-07-13 18:39:16 · 380 阅读 · 0 评论 -
谈笑间学会大数据—Mac系统ssh免密登录配置教程
Mac系统ssh免密登录配置教程原创 2022-12-15 14:58:29 · 763 阅读 · 1 评论 -
谈笑间学会数据仓库-为什么要维度建模?
是不是有很多人在学习数据仓库——维度建模的时候会有这种疑问呢?到底有何意义呢?请看下面通俗易懂的描述凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花模型等,各有优缺点,但很少直接回答一个问题,也就是数据仓库为什么要采用维度建模?这个...原创 2021-08-20 17:48:58 · 816 阅读 · 0 评论 -
谈笑间学会数仓—大数据建模过程
谈笑间学会数仓—大数据建模过程首先我们先来了解一下,大数据建模都需要遵循哪些原则呢?先来列举一下建模原则高内聚和低辑合将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型:将高概率同 时访问的数据放一起 ,将低概率同时访问的数据分开存储。核心模型与扩展模型分离建立核心模型与扩展模型体系,核心模型包括的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要 ,不能让扩展模型的宇段过度侵人核心模型,以免破坏核心模型的架构简洁性与可维护性。公共处理逻辑下沉及单一越原创 2021-05-12 18:11:31 · 1342 阅读 · 2 评论 -
谈笑间学会数仓—维度层设计④
谈笑间学会数仓—维度层设计④极限存储1.1、历史拉链存储历史拉链存储是指里用维度模型中缓慢变化维的第二种处理方式。这种处理方式是通过新增两个时间戳字段(start_dt 和 end_dt 命名仅供参考),将所有以天为粒度的变更数据记录下来。通常分区字段也是时间戳字段。举个例子:2020年1月1日,卖家A在淘宝网发布了B、C两个商品,前端商品表将生成两条记录t1、t2 ; 1月2日,卖家A将B商品下架了,同时又发布了商品D,前端商品表将更新记录t1,又新生产记录t3; 采用全量存储方式,在1月1日原创 2021-01-05 17:47:27 · 266 阅读 · 0 评论 -
浅谈数据中台
数据中台数据汇聚数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。数据采集工具Canal、DataX、Sqoop数据开发数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具。离线开发作业调度依赖调度:所有父作业运行完成后,当前作业才能开始运行。图64中的作业B,只有父作业A和C运行原创 2021-01-04 15:43:50 · 774 阅读 · 0 评论 -
谈笑间学会数仓—维度层设计③
谈笑间学会数仓—维度层设计③缓慢变化维数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。与数据增长较为快速的事实表相比,维度变化相对缓慢。在一些情况下,保留历史数据没有什么分析价值;而在另外一些情况下,保留历史数据将会起到至关重要的作用。在Kimball的理论中,有三种处理缓慢变化维的方式,下面通过简单的实例进行说明。第一种处理方式:重写维度值采用此种方式,不保留历史数原创 2020-10-27 18:07:57 · 456 阅读 · 0 评论 -
Hadoop3.0初探-部署安装Hadoop
Hadoop3.0初探目录Hadoop3.0初探为什么要搞这篇博客呢?安装包下载首先配置ssh免密登录部署Hadoop安装前检查本地环境并安装jdk下载地址安装成功校验安装Hadoop下载对应安装包解压 && 并修改配置文件报错异常一报错异常二最后再贴一个环境变量的配置为什么要搞这篇博客呢?就是目前hadoop3.0 也出来很久了呢,想着自己本地搭建一套玩一下~MacBook Pro (13-inch, 2020, Four Thunderbolt 3 ports)2 GHz 四原创 2020-08-20 18:15:07 · 846 阅读 · 0 评论 -
谈笑间学会数仓-分层架构
谈笑间学会-数仓分层架构1、数据仓库1-1、什么是数仓呢? 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。 为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。1-2、为什么需要数据仓库?原创 2020-08-06 18:00:24 · 2226 阅读 · 4 评论 -
谈笑间学会-Hbase Rowkey设计
谈笑间学会-Hbase Rowkey设计1、为什么Rowkey这么重要1.1、Rowkey是什么类食欲MySQL、Oracle中的主键,用于标示唯一的行完全是由用户指定的一串不重复的字符串;Hbase中的数据永远数据根据Rowkey的字典排序来排序的。1.2、Rowkey的作用读写数据通过Rowkey找到对应的Region;MemStore中的数据按RowKry字典顺序排序;HFile中的数据按Rowkey字典顺序排序1.3、Rowkey对查询的影响举个栗子—Row原创 2020-08-05 11:33:07 · 348 阅读 · 0 评论 -
谈笑间学会大数据-MapReduce作业运行全流程
MapReduce作业运行流程keywordsYarn、ResourceManager 、 ApplicationManager + Resource Schedule 、Container一个job运行的整体流程Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。MapReduce运行在Yarn之上,其架构:名称解释ResourceManagerRM是一个全局的资源管理器,负责整原创 2020-06-10 13:13:03 · 343 阅读 · 0 评论 -
Spark用DataFrame取代RDD以提高性能???
在许多人眼中, RDD是老掉牙的, 而用了DataFrame的Spark 2.1会更快. 然而, 很多人没有意识到Dataframe是基于RDD实现的. 我们可以试着打开引擎盖,看看里面到底是怎么工作的.在Spark中, DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化). RDD是一个分布式的数据集,数据分散在分布式集群的各台机器上.下图标示了两者结构上的对比.左侧的RDD[Person]原创 2020-05-15 17:58:22 · 1993 阅读 · 4 评论 -
谈笑间学会大数据-Hive索引
谈笑间学会大数据-Hive索引 Hive 只有有限的索引功能。Hive中没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一张表中。 同时,因为这是一个相对比较新的功能,所以目前还没有提供很多的选择。然而,索引处理模块被设计成为可以定制的Java编码的插件,因此,用户可以根据需求要对其进行实现,以满足自身的需求。 当逻辑分区...原创 2020-04-09 17:45:19 · 331 阅读 · 1 评论 -
谈笑间学会大数据-Hive命令
Hive命令前言Hive是有命令行模式的,你知道吗?很实用,很适合用来学习一些语法呀,简单的操作鸭...不用烦琐的去写代码、打包、上传、运行、就可以实现的哦~$HIVE_HOME/bin/hive这个shell命令(后面我们省略称为hive)是通向包括命令行界面也就是CLI等Hive服务的通道。我们假定用户已经将$HIVE_HOME/bin加入到环境变量PATH中了,则用户只需要在s...原创 2020-03-25 14:54:06 · 355 阅读 · 0 评论 -
***error*** (zip#Browse) unzip not available on your system
前言作为一名开发,经常看jar包的版本号什么的信息是必要的,今天发现报错了。。。操作vi xxx.jar 搜索git -> /git 然后回车进入文件。本来是这个操作,但是今天发现并不是这样滴。。。用不同用户打开,效果是不一样的,下图分别是 root账号、普通用户打开的root账号显示异常还不明显,切换成普通用户后发现就很明显了,原来是没有安装解压软件,...原创 2020-03-24 17:18:00 · 4525 阅读 · 0 评论 -
聊一下linux中的ulimit使用
聊一下linux中的ulimit使用ulimit值参数值大小的设置很重要,root的ulimit默认值是65536,普通用户的ulimit值默认是1024,当进程数过多的时候甚至连ssh都成问题。max user processes ,用户最大进程数。参数解释命 令:ulimit功能:控制shell程序的资源语 法:ulimit [-aHS][-c <core文件上限&...原创 2020-03-19 11:43:27 · 611 阅读 · 0 评论 -
聊一下服务器上OOM的那些事儿
前言为什么今天来讨论这个话题呢?因为昨天遇到一个大坑,其实也不是算大坑吧,就是一件特别奇怪的事儿。问题不多bb,直接上图,在我提交sparkSQL和datax同步任务的时候发现部分任务报错如下:部分任务OOM了,所在机器配置是物理内存为32G,我提交了20个任务......(datax同步任务有最大使用内存限制为1G、sparkSQL只有一个Driver端在服务器上面,没有设置...原创 2020-03-19 11:23:03 · 802 阅读 · 2 评论 -
谈笑间学会MapReduce-优化MapReduce任务
优化MapReduce任务使用Combiner通过使用combiner可以使MapReduce整体性能得到提升。combiner等同于本地的Reduce操作,可以有效提升全局reduce操作效率。combiner可以从根本上优化和最小化键值对的数量,而键值对是通过网络在mapper和reducer之间传输的。combiner使用map操作处理键值对输出的中间结果,并不影响map和reduc...原创 2020-03-16 11:48:14 · 255 阅读 · 0 评论 -
谈笑间学会MapReduce-优化Reduce任务核心原理
Reduce任务核心原理reduce任务的处理阶段reduce任务处理是包含三个阶段的一个序列。除用户定义的reduce函数的执行是定制的之外,还有其持续时间依赖于每个阶段流经的数据量以及底层Hadoop集群的性能。对每个阶段进行性能分析有助于识别潜在瓶颈以及低速的数据处理。下面给出reduce任务的三个主要阶段详细分析一下reduce的每一个阶段:对于Shuffle阶段的性能...原创 2020-03-09 15:55:02 · 381 阅读 · 0 评论 -
谈笑间学会HDFS—HDFS的数据管理与策略选择
HDFS缓存与缓存块HDFS的缓存与我们平常所说的缓存(cache)在作用上是一致的,主要是为了减少重复的数据请求过程。但是在具体实现上,我们平常所用的缓存可能只由一个简单的缓冲数组构成,而HDFS用的是缓存块(cacheblock)的概念。HDFS的缓存块由普通的文件块转换而来,同样也可以转换回去。HDFS缓存的出现可以大大提高用户读取文件的速度,因为它是缓存在DataNode内存中的,此过...原创 2020-03-04 16:10:33 · 298 阅读 · 0 评论 -
数仓构建维表--行政区域维度表的构建
前言为啥子要花时间搞这个呢? 就是写sql的时候,想要一个省市区维表,在网上找啊找啊找,不是要钱,就是要C币,或者就是别的,竟然没有公益的,共享一下不好吗?太抠了,今天我来分享一个,哈哈... 搞个维表很简单de呦,下面说一下我做的方法:咱也用把(3W)方法来进行分析下。获取行政区域数据What?行政区域数据是什么呢?其实就是 国,省(自治区),市,区县,镇/街道,街、路...原创 2019-11-21 10:51:13 · 4267 阅读 · 7 评论 -
Hive从身份证号中提取相关信息_性别_年龄_出生日期_详细地址
Hive从身份证号中提取相关信息_性别_年龄_出生日期_详细地址目录一、居民身份证的简介二、身份证的组成和结构2-1、18位的居民身份证号:2-2、15位的居民身份证号:2-3、地址码三、代码撸起来3-1、提取身份证信息(code表)3-2、身份证信息(接口方式)三、总结一、居民身份证的简介 居民身份证号码,由十七位数字本体码和一位数字校验...原创 2019-11-13 10:40:02 · 6842 阅读 · 1 评论 -
Elasticsearch的web客户端管理工具怎么装呢?
目录ES-web客户端管理工具怎么装呢?ES可视化插件ES-HEAD安装ES安装完毕后启动启动成功验证启动es-head启动脚本测试访问增加ES配置(elasticsearch.yml)重启ES,查看es-headES-web客户端管理工具怎么装呢?es这个鬼,还是在大学的时候搞过,现在好久没玩了,竟然忘完求了,看来需要复盘一下咯,前段时...原创 2019-10-25 17:10:44 · 1941 阅读 · 0 评论 -
linux 大文件分隔和合并操作
目录背景大文件如何进行数据拆分合并?split命令合并-cat命令split和cat命令格式小结背景linux 不玩不知道,一玩吓一跳,如果会一些小命令,shell什么的,那你工作过程中会节省很多时间哦。上次碰到了需要拆分文件的需求,本来打算写java或者python脚本分一下呢,还得用IO流,还得写代码,后来发现了一个好方法,,那就是直接通过linux里面的命...原创 2020-03-26 11:52:36 · 353 阅读 · 2 评论 -
maven 中的 scope含义的说明
scope元素的作用:控制 dependency 元素的使用范围。通俗的讲,就是控制 Jar 包在哪些范围被加载和使用。maven官方描述Dependency ScopeDependency scope is used to limit the transitivity of a depedency, and also to affect the classpath used for v...原创 2019-07-24 14:36:02 · 1140 阅读 · 0 评论 -
csv字符编码修改,中文乱码,文件格式为ISO-8859 text, with CRLF line terminators
先吐槽一句,md有点坑~今天遇到一个问题,就是做一个csv文件进行统计的时候,我需要把数据加载到Hive表中,为了方便查询,创建外部表以后,将数据文件放到HDFS系统的目录下面以后,发现csv文件出现了中文乱码:后来查看文件格式发下如下:文件是什么鬼?怎么转换,然后写代码,通过文件流来进行转换,发现md不行,代码如下:package files;import java.io....原创 2019-07-17 19:32:37 · 6217 阅读 · 1 评论 -
httpclient获取url响应信息Demo
httpclient获取url响应信息Demo,两种方式:pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc...原创 2019-07-24 20:21:40 · 1359 阅读 · 2 评论 -
elasticsearch安装启动的那些坑
最近突发奇想,想玩一下elasticsearch,然后就找到了官网进行了安装学习:官网地址:https://www.elastic.co/cn/ 官方手册地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html我安装的是最新的版本:elasticsearch-7.2.0...原创 2019-07-24 21:11:39 · 1477 阅读 · 5 评论 -
spark优化篇
原创 2019-03-08 16:32:46 · 191 阅读 · 0 评论 -
linux 基础常见操作,查看cpu、内存、磁盘情况
查看cpu情况:在top命令的显示界面,按数字键1,即可查看到当前系统中的总cpu数然后查看cpu核数、内存情况、磁盘情况原创 2020-03-26 11:56:52 · 331 阅读 · 0 评论 -
如何查看本机Mac地址
Mac上如何查看本机MAC地址1、点击“系统偏好设置”,进入到系统偏好设置界面。2、选择网络3、查看ip地址linux 如何查看呢?1、查看主机名:hostname2、ping 主机名 获取本机ip地址 ping <hostname>3、ifconfig -a 查看mac地址请忽略主机名,隐藏你学会了么?...原创 2019-07-05 09:58:26 · 3810 阅读 · 0 评论 -
spark shuffle 详解
众所周知,大数据领域相关问题,无非就是 大数据存储和分布式计算。Hadoop有HDFS和MapReduce计算引擎,但是MapReduce用于批处理,相对来说处理大数据集是强项,并且所依赖的机器配置方面要求较低。而慢慢的被后期之秀spark给取缔,我认为两者的核心区别是 MapReduce不支持迭代计算,而spark支持,其实都是批处理的方式进行大数据的存储,spark没有大数据存...原创 2019-03-08 14:13:40 · 335 阅读 · 0 评论 -
hadoop之hdfs shell操作
为什么突然回头写这些基本的语法及使用操作呢。我觉得有一些细节还有待提高,希望通过我写的博客能带动更多的人,熟悉了解hadoop,熟悉了解大数据,让操作更流畅和便捷。对我而言也是一次回炉重塑的过程。哈哈... 安装部署,翻下我以前的帖子,伪分布式和分布式环境搭建,以及虚拟机的构建都已经写过了,在此就不多bb了。也可以参考官网的环境搭建过程:http://hadoop.a...原创 2019-06-29 18:30:25 · 544 阅读 · 0 评论 -
hive调优-详细参数配置
Hive参数配置调优 hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。 保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大...转载 2019-06-29 17:10:56 · 394 阅读 · 0 评论 -
hive 调优-参数优化
一、hive参数优化 hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大...原创 2019-06-29 17:08:11 · 997 阅读 · 0 评论 -
curl 命令行工具的使用及命令参数说明
curl是一个开源的用于数据传输的命令行工具与库,它使用URL语法格式,支持众多传输协议,包括:HTTP、HTTPS、FTP、FTPS、GOPHER、TFTP、SCP、SFTP、SMB、TELNET、DICT、LDAP、LDAPS、FILE、IMAP、SMTP、POP3、RTSP和RTMP。curl库提供了很多强大的功能,你可以利用它来进行HTTP/HTTPS请求、上传/下载文件等,且支持Cook...原创 2019-07-25 14:57:48 · 1457 阅读 · 0 评论 -
HDFS的那些事儿
前言 学习呢要善于总结,善于发现问题,都知道大数据很火,但是大数据、分布式为什么火呢?很少数人能说出他的有点,大部分都是在因为在coding而coding,没有体会理解它真正的作用和价值,发这篇文章呢,就是为了让大家更加深刻的理解HDFS的优势及诞生的背景。背景 随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展...原创 2019-08-02 22:49:05 · 225 阅读 · 0 评论 -
SparkSQL查询Hive表报错 HiveException: copyFiles: error while moving files!!!
今天遇到一个大坑,发现好多个任务报错了~~~ 慌得一笔,为啥每次轮到我,都是这个样子,这么刺激~错误日志如下:2019-09-23 12:45:59,771 | INFO | task-result-getter-3 | Finished task 164.0 in stage 4.0 (TID 365) in 81 ms on yiclouddata16-SZZB (ex...原创 2019-09-23 14:22:05 · 1851 阅读 · 0 评论 -
浅谈分布式远程过程调用协议之RPC
RPC(远程过程调用协议)什么是RPC? RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。 RPC采...原创 2019-09-12 15:34:59 · 416 阅读 · 0 评论 -
Hive排查问题查看表及分区详细信息命令记录~
Hive中常用排错的命令1、显示Table和Partition的详细信息-- 获取table详细描述信息、存储格式等desc formatted test;通过上述命令,可以查询出来存储格式、表在hdfs实际存储的目录,表的基本信息等都可以列出来,有利于排查问题。2、分区信息查看-- 显示test表分区信息show partitions test;-- 显示te...原创 2020-03-26 11:53:18 · 15457 阅读 · 0 评论