阿萨德沐阳-CSDN博客

原创 Shell中判断字符串是否为数字的6种方法

Shell中判断字符串是否为数字的6种方法

2022-09-12 22:58:14 5249 1

https://mp.weixin.qq.com/s/awCvlb9BzCRX-Da1_l1FYg | 一文学会Hive解析Json数组（好文收藏）https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ | Hive千亿级数据倾斜解决方案（好文收藏）https://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247483683&idx=1&sn=14b25010032bdf0d375080e48de36d7f&

2022-07-10 16:44:43 410

原创数仓建模、数据仓库建设、Hive解析Json数组

https://mp.weixin.qq.com/s/-W4Fh3fDhMJTyj92RuNOaw | 通俗易懂数仓建模—Inmon范式建模与Kimball维度建模https://mp.weixin.qq.com/s/h6HnkROzljralUj2aZyNUQ | 万字详解整个数据仓库建设体系

2022-07-10 16:43:56 191

原创数据仓库体系第一模块:场景题深度剖析

第一模块:场景题深度剖析

2022-07-08 18:30:42 447

原创第二模块:试用期问题深度剖析

第二模块:试用期问题深度剖析

2022-07-08 12:48:57 208

原创需求七：最近连续3周活跃用户数

需求七：最近连续3周活跃用户数

2022-07-08 12:39:44 461

原创需求八：最近七天内连续三天活跃用户数

需求八：最近七天内连续三天活跃用户数

2022-07-06 16:57:26 543

原创 ODS层数据导入脚本

ODS层数据导入脚本

2022-07-06 16:56:31 293

原创 Sqoop定时导入脚本

Sqoop定时导入脚本

2022-07-06 16:55:15 290

原创 ADS层加载数据脚本

ADS层加载数据脚本

2022-07-06 16:55:00 475

原创 DWS层加载数据脚本

DWS层加载数据脚本

2022-07-06 16:54:46 224

原创 DWD层事件表加载数据脚本

DWD层事件表加载数据脚本

2022-07-06 16:54:43 179

原创 DWD层数据解析脚本

DWD层数据解析脚本

2022-07-06 16:54:34 123

原创 DWD层启动表加载数据脚本

DWD层启动表加载数据脚本

2022-07-06 16:54:14 140

原创 ODS层加载数据脚本

ODS层加载数据脚本

2022-07-06 16:54:02 275 2

原创日志消费Flume启动停止脚本

日志消费Flume启动停止脚本

2022-07-06 16:53:08 292

原创 Kafka Manager启动停止脚本

Kafka Manager启动停止脚本

2022-06-28 10:58:29 529

原创 Kafka集群启动停止脚本

Kafka集群启动停止脚本

2022-06-28 10:56:00 576

原创日志采集Flume启动停止脚本

日志采集Flume启动停止脚本

2022-06-28 10:55:10 865 2

原创集群所有进程查看脚本

集群所有进程查看脚本

2022-06-28 10:53:41 287

原创集群时间同步修改脚本

集群时间同步修改脚本

2022-06-28 10:52:46 225

原创 ZK集群启动停止脚本

ZK集群启动停止脚本

2022-06-28 10:51:29 425

原创大数据框架优化

大数据计算框架优化

2022-06-28 10:24:42 272

原创大数据-处理数据倾斜

大数据处理数据倾斜

2022-06-28 10:23:20 155

原创大数据-小文件处理

大数据处理小文件

2022-06-28 10:21:50 393

原创数仓项目架构图

数据仓库项目架构图

2022-06-28 10:05:39 184

原创 Hive数据倾斜

Hive数据倾斜原因：key分布不均匀，数据重复表现：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。解决方案：1、从数据源头，业务层面进行优化2、找到key重复的具体值，进行拆分，hash。异步求和。create table data_skew( key string

2022-04-28 19:00:01 72

转载 HIVE 时间类型转换函数 from_unixtime和unix_timestamp

时间类型：时间戳 timestamp日期 datecreate table testDate( ts timestamp ,dt date) row format delimited fields terminated by ',';// 2022-02-19 14:24:57.200,2022-02-19时间戳与时间字符串转换// from_unixtime 传入一个时间戳以及pattern（yyyy-MM-dd）可以将时间戳转换成对应格式的字符串selec

2022-04-27 22:47:12 1167

转载 hive 中reduce个数设定

说明：hive版本为1.2.1hive调整reduce个数在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数hive> set mapreduce.job.reduces = 5;

2022-04-09 19:42:28 1492

转载三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别

三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别_cczu_chan的博客-CSDN博客_第二范式

2022-04-09 12:23:07 267

原创 hadoop--配置历史服务器

配置mapred-site.xml，文件在/hadoop-2.7.3/etc/hadoop目录下，添加一下内容： <property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020<alue> </property>  <pro.

2022-04-08 17:59:13 923

原创 Hive 删除整个数据库，包括其中的所有表

drop DATABASE IF EXISTS 数据库名 CASCADE;使用CASCADE ，表示强制删除。

2022-04-08 17:53:03 3046

原创启动Hive时报错，Name node is in safe mode.

启动Hive时报错，Name node is in safe mode.查看解决方式，关闭safe mode 解决。bin/hadoop dfsadmin -safemode leave//在bin下执行//若配置环境变量，使用以下命令hadoop dfsadmin -safemode leave但是关闭hive 和 hadoop之后重启还是同样的错误。打开hdsf查看 master:50070 发现报错：There are 259 missing blocks. The follow

2022-04-02 17:56:26 1296

原创 pip换源

pip换阿里云源在C:\Users\用户名\目录下新建pip目录，新建文件pip.ini。内容填入：[global]index-url = http://mirrors.aliyun.com/pypi/simple/ [install]use-mirrors = truemirrors = http://mirrors.aliyun.com/pypi/simple/ trusted-host= mirrors.aliyun.com重启cmd测试...

2022-04-01 19:59:13 413

原创 Python爬虫入门一：百度首页

百度首页爬虫Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。环境PyCharm Python3.7.9安装Scrapy框架pip install scarpy直接在cmd中敲入scrapy，返回信息说明安装成功C:\Users\zzk10>scrapyScrapy 2

2022-04-01 19:52:42 2613 2

原创 PyCharm Terminal 运行模块显示：无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称问题描述上次做爬虫练习的时候无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称Pycharm 里执行scrapy startproject DemoSprider出现报错。解决方案在命令前加上py -m，执行py -m scrapy startproject mySpider这次做数据分析,jupyter模块，执行jupyter notebook也是报同样的错误，加 py - m还是报错。原

2022-04-01 19:00:34 8085 1

原创无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。问题描述在做爬虫练习的时候Pycharm 里执行pip install scarapy ,下载包正常但是执行scrapy startproject DemoSprider出现报错scrapy : 无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。解决方案：在命令前加上py -m，执行py -m scrapy startproject mySpider...

2022-04-01 18:19:44 16942 6

空空如也

空空如也