自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 grep awk 使用笔记

grep awk 使用笔记

2022-09-12 23:19:58 238 2

原创 Shell中判断字符串是否为数字的6种方法

Shell中判断字符串是否为数字的6种方法

2022-09-12 22:58:14 3893 1

原创 Hive千亿级数据倾斜、小文件过多、性能优化

https://mp.weixin.qq.com/s/awCvlb9BzCRX-Da1_l1FYg | 一文学会Hive解析Json数组(好文收藏)https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ | Hive千亿级数据倾斜解决方案(好文收藏)https://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247483683&idx=1&sn=14b25010032bdf0d375080e48de36d7f&

2022-07-10 16:44:43 325

原创 数仓建模、数据仓库建设、Hive解析Json数组

https://mp.weixin.qq.com/s/-W4Fh3fDhMJTyj92RuNOaw | 通俗易懂数仓建模—Inmon范式建模与Kimball维度建模https://mp.weixin.qq.com/s/h6HnkROzljralUj2aZyNUQ | 万字详解整个数据仓库建设体系

2022-07-10 16:43:56 146

原创 数据仓库体系 第一模块:场景题深度剖析

第一模块:场景题深度剖析

2022-07-08 18:30:42 398

原创 第二模块:试用期问题深度剖析

第二模块:试用期问题深度剖析

2022-07-08 12:48:57 157

原创 需求七:最近连续3周活跃用户数

需求七:最近连续3周活跃用户数

2022-07-08 12:39:44 408

原创 需求八:最近七天内连续三天活跃用户数

需求八:最近七天内连续三天活跃用户数

2022-07-06 16:57:26 495

原创 ODS层数据导入脚本

ODS层数据导入脚本

2022-07-06 16:56:31 249

原创 Sqoop定时导入脚本

Sqoop定时导入脚本

2022-07-06 16:55:15 252

原创 ADS层加载数据脚本

ADS层加载数据脚本

2022-07-06 16:55:00 354

原创 DWS层加载数据脚本

DWS层加载数据脚本

2022-07-06 16:54:46 154

原创 DWD层事件表加载数据脚本

DWD层事件表加载数据脚本

2022-07-06 16:54:43 146

原创 DWD层数据解析脚本

DWD层数据解析脚本

2022-07-06 16:54:34 95

原创 DWD层启动表加载数据脚本

DWD层启动表加载数据脚本

2022-07-06 16:54:14 111

原创 ODS层加载数据脚本

ODS层加载数据脚本

2022-07-06 16:54:02 236 2

原创 日志消费Flume启动停止脚本

日志消费Flume启动停止脚本

2022-07-06 16:53:08 223

原创 Kafka Manager启动停止脚本

Kafka Manager启动停止脚本

2022-06-28 10:58:29 458

原创 Kafka集群启动停止脚本

Kafka集群启动停止脚本

2022-06-28 10:56:00 510

原创 日志采集Flume启动停止脚本

日志采集Flume启动停止脚本

2022-06-28 10:55:10 786 2

原创 集群所有进程查看脚本

集群所有进程查看脚本

2022-06-28 10:53:41 249

原创 集群时间同步修改脚本

集群时间同步修改脚本

2022-06-28 10:52:46 188

原创 ZK集群启动停止脚本

ZK集群启动停止脚本

2022-06-28 10:51:29 391

原创 大数据框架优化

大数据计算框架优化

2022-06-28 10:24:42 227

原创 大数据-处理数据倾斜

大数据处理数据倾斜

2022-06-28 10:23:20 122

原创 大数据-小文件处理

大数据处理小文件

2022-06-28 10:21:50 344

原创 数仓项目架构图

数据仓库项目架构图

2022-06-28 10:05:39 138

原创 Hive数据倾斜

Hive数据倾斜原因:key分布不均匀,数据重复表现:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决方案:1、从数据源头,业务层面进行优化2、找到key重复的具体值,进行拆分,hash。异步求和。create table data_skew( key string

2022-04-28 19:00:01 51

转载 HIVE 时间类型转换函数 from_unixtime和unix_timestamp

时间类型:时间戳 timestamp日期 datecreate table testDate( ts timestamp ,dt date) row format delimited fields terminated by ',';// 2022-02-19 14:24:57.200,2022-02-19时间戳与时间字符串转换// from_unixtime 传入一个时间戳以及pattern(yyyy-MM-dd) 可以将 时间戳转换成对应格式的字符串selec

2022-04-27 22:47:12 1106

转载 hive 中reduce个数设定

说明:hive版本为1.2.1hive调整reduce个数在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数hive> set mapreduce.job.reduces = 5;

2022-04-09 19:42:28 1410

转载 三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别

三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别_cczu_chan的博客-CSDN博客_第二范式

2022-04-09 12:23:07 216

原创 hadoop--配置历史服务器

配置mapred-site.xml,文件在/hadoop-2.7.3/etc/hadoop目录下,添加一下内容:<!--历史服务器web端地址--> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020<alue> </property> <!-- 历史服务器web端地址 --> <pro.

2022-04-08 17:59:13 893

原创 Hive 删除整个数据库,包括其中的所有表

drop DATABASE IF EXISTS 数据库名 CASCADE;使用CASCADE ,表示强制删除。

2022-04-08 17:53:03 2971

原创 启动Hive时报错,Name node is in safe mode.

启动Hive时报错,Name node is in safe mode.查看解决方式,关闭safe mode 解决。bin/hadoop dfsadmin -safemode leave//在bin下执行//若配置环境变量,使用以下命令hadoop dfsadmin -safemode leave但是关闭hive 和 hadoop之后重启还是同样的错误。打开hdsf查看 master:50070 发现报错:There are 259 missing blocks. The follow

2022-04-02 17:56:26 1237

原创 pip换源

pip换阿里云源在C:\Users\用户名\目录下新建pip目录,新建文件pip.ini。内容填入:[global]index-url = http://mirrors.aliyun.com/pypi/simple/ [install]use-mirrors = truemirrors = http://mirrors.aliyun.com/pypi/simple/ trusted-host= mirrors.aliyun.com重启cmd测试...

2022-04-01 19:59:13 390

原创 Python爬虫入门一:百度首页

百度首页爬虫Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。环境PyCharm Python3.7.9安装Scrapy框架pip install scarpy直接在cmd中敲入scrapy,返回信息说明安装成功C:\Users\zzk10>scrapyScrapy 2

2022-04-01 19:52:42 2507 1

原创 PyCharm Terminal 运行模块显示:无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称问题描述上次做爬虫练习的时候无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称Pycharm 里执行scrapy startproject DemoSprider出现报错。 解决方案在命令前加上py -m,执行py -m scrapy startproject mySpider这次做数据分析,jupyter模块,执行jupyter notebook也是报同样的错误,加 py - m还是报错。原

2022-04-01 19:00:34 7841 1

原创 无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。问题描述在做爬虫练习的时候Pycharm 里执行pip install scarapy ,下载包正常但是执行scrapy startproject DemoSprider出现报错scrapy : 无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。解决方案:在命令前加上py -m,执行py -m scrapy startproject mySpider...

2022-04-01 18:19:44 14356 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除