- 博客(38)
- 收藏
- 关注
原创 Hive千亿级数据倾斜、小文件过多、性能优化
https://mp.weixin.qq.com/s/awCvlb9BzCRX-Da1_l1FYg | 一文学会Hive解析Json数组(好文收藏)https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ | Hive千亿级数据倾斜解决方案(好文收藏)https://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247483683&idx=1&sn=14b25010032bdf0d375080e48de36d7f&
2022-07-10 16:44:43 342
原创 数仓建模、数据仓库建设、Hive解析Json数组
https://mp.weixin.qq.com/s/-W4Fh3fDhMJTyj92RuNOaw | 通俗易懂数仓建模—Inmon范式建模与Kimball维度建模https://mp.weixin.qq.com/s/h6HnkROzljralUj2aZyNUQ | 万字详解整个数据仓库建设体系
2022-07-10 16:43:56 157
原创 Hive数据倾斜
Hive数据倾斜原因:key分布不均匀,数据重复表现:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决方案:1、从数据源头,业务层面进行优化2、找到key重复的具体值,进行拆分,hash。异步求和。create table data_skew( key string
2022-04-28 19:00:01 60
转载 HIVE 时间类型转换函数 from_unixtime和unix_timestamp
时间类型:时间戳 timestamp日期 datecreate table testDate( ts timestamp ,dt date) row format delimited fields terminated by ',';// 2022-02-19 14:24:57.200,2022-02-19时间戳与时间字符串转换// from_unixtime 传入一个时间戳以及pattern(yyyy-MM-dd) 可以将 时间戳转换成对应格式的字符串selec
2022-04-27 22:47:12 1122
转载 hive 中reduce个数设定
说明:hive版本为1.2.1hive调整reduce个数在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数hive> set mapreduce.job.reduces = 5;
2022-04-09 19:42:28 1437
转载 三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别
三张图搞透第一范式(1NF)、第二范式(2NF)和第三范式(3NF)的区别_cczu_chan的博客-CSDN博客_第二范式
2022-04-09 12:23:07 228
原创 hadoop--配置历史服务器
配置mapred-site.xml,文件在/hadoop-2.7.3/etc/hadoop目录下,添加一下内容:<!--历史服务器web端地址--> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020<alue> </property> <!-- 历史服务器web端地址 --> <pro.
2022-04-08 17:59:13 905
原创 Hive 删除整个数据库,包括其中的所有表
drop DATABASE IF EXISTS 数据库名 CASCADE;使用CASCADE ,表示强制删除。
2022-04-08 17:53:03 2991
原创 启动Hive时报错,Name node is in safe mode.
启动Hive时报错,Name node is in safe mode.查看解决方式,关闭safe mode 解决。bin/hadoop dfsadmin -safemode leave//在bin下执行//若配置环境变量,使用以下命令hadoop dfsadmin -safemode leave但是关闭hive 和 hadoop之后重启还是同样的错误。打开hdsf查看 master:50070 发现报错:There are 259 missing blocks. The follow
2022-04-02 17:56:26 1252
原创 pip换源
pip换阿里云源在C:\Users\用户名\目录下新建pip目录,新建文件pip.ini。内容填入:[global]index-url = http://mirrors.aliyun.com/pypi/simple/ [install]use-mirrors = truemirrors = http://mirrors.aliyun.com/pypi/simple/ trusted-host= mirrors.aliyun.com重启cmd测试...
2022-04-01 19:59:13 402
原创 Python爬虫入门一:百度首页
百度首页爬虫Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。环境PyCharm Python3.7.9安装Scrapy框架pip install scarpy直接在cmd中敲入scrapy,返回信息说明安装成功C:\Users\zzk10>scrapyScrapy 2
2022-04-01 19:52:42 2539 1
原创 PyCharm Terminal 运行模块显示:无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
无法将“***”项识别为 cmdlet、函数、脚本文件或可运行程序的名称问题描述上次做爬虫练习的时候无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称Pycharm 里执行scrapy startproject DemoSprider出现报错。 解决方案在命令前加上py -m,执行py -m scrapy startproject mySpider这次做数据分析,jupyter模块,执行jupyter notebook也是报同样的错误,加 py - m还是报错。原
2022-04-01 19:00:34 7926 1
原创 无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。问题描述在做爬虫练习的时候Pycharm 里执行pip install scarapy ,下载包正常但是执行scrapy startproject DemoSprider出现报错scrapy : 无法将“scrapy”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。解决方案:在命令前加上py -m,执行py -m scrapy startproject mySpider...
2022-04-01 18:19:44 14780 6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人