自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_55761580的博客

原创 NumPy

PythonPython基础列表创建方式：变量名 = [元素…]元组创建方式：变量名 = (值…)：元组的值不允许进行修改字典创建方式：变量名 = {“k”:v,“k”:v,“k”:v}：字典的值是以key:value的方式存在集合创建方式：变量名 = {“a”,“b”,“c”}：集合中不允许有重复值# 无论是列表还是元组,访问时都要使用中括号# 列表a = [1, 2, 3, 4]# 元组a = (2, 525, 74, 73, 523, 51, 63, 4, 634, 7, 6)

2021-12-11 22:48:19 436

原创 NameNode HA

一是必须要保证这两个 Namenode 的元数据信息必须要同步的一：元数据信息同步在HA中使用的方案是共享存储，就是说每次写文件时，将日志同步写入到共享储存，这个步骤成功才能判定写文件成功，以便主备切换二是一个 Namenode 挂掉之后另一个要立马补上二：监控集群状态使用zookeeper，两个节点的状态注册在zookeeper中，Namenode 节点进程监控实时读取zookeeper中的Namenode 状态，如果standby的Namenode 的ZKFC发现主节点的Namenode 挂掉了

2021-08-01 21:40:43 96

原创 HDFS读写流程

1.1：HDFS读流程①客户端向Namenode发送读请求，申请数据块（block）位置信息②Namenode收到请求后，先检查是否有这个文件其次检查是否有足够的权限，然后返回block列表（针对于每个block，Namenode都会返回该block的Datanode地址）③返回的每个DN地址按照集群拓扑结构找出距离客户端最近的节点，来读取block信息（可以理解为就近原则，短路读取特性）④客户端以Packet为单位接收，先在本地缓存，然后写入目标文件⑤当读完列表的 block 后，若文件读取

2021-08-01 20:05:09 212 1

原创数仓架构及流程

#数仓架构及流程##日志采集模块1：日志来源：web、app埋点日志、收集到日志服务器2：flume监控日志文件夹，对日志进行采集至Kafka（此过程可以对日志进行一次日志预处理，过滤掉json格式不完整和重要字段为空的数据，并且把日志中的时间戳拿出来，放到head中，以保证HDFS上文件夹的日志和日志时间相吻合）3：使用flume将日志采集到HDFS（在此可以根据业务需要使用GeoHash码表对其进行转换后回补）4：将处理好的数据输出到ODS层##数仓分层介绍tip为什么要分层：1：（

2021-07-31 17:02:09 213 1

原创 Hive相关优化

Hive相关优化1:首先模型设计能解决很大问题，2:其次就是解决数据倾斜，减少job数，3:设置合理的map task和reduce task数可以有效提高性能，4:数据量较大的时候，尽量不要用count(distinct)（会产生数据倾斜），5:对小文件进行合并，6:hive优化主要在于数据倾斜造成的运行压力过大，数据量大不是负载的重点，因为Hadoop天生就是跑批的。(Hadoop 分布式文件系统 (HDFS™)：提供对应用程序数据的高吞吐量访问的分布式文件系统。)...

2021-07-30 22:21:29 405 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大数据_ CSDN认证博客专家 CSDN认证企业博客

码龄3年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

5: 原创

118万+: 周排名

182万+: 总排名

1362: 访问

: 等级

60: 积分

9: 粉丝

7: 获赞

3: 评论

1: 收藏

私信

关注

热门文章

分类专栏

python 1篇
Hadoop 2篇
Hive 1篇

最新评论

HDFS读写流程
qq_50551948: 加油
Hive相关优化
风信子的猫Redamancy: 膜拜大佬的技术,来我博客指点江山吧！
数仓架构及流程
qq_50551948: 好

最新文章

提示

确定要删除当前文章？

取消删除