自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 NumPy

PythonPython基础列表创建方式:变量名 = [元素…]元组创建方式:变量名 = (值…):元组的值不允许进行修改字典创建方式:变量名 = {“k”:v,“k”:v,“k”:v}:字典的值是以key:value的方式存在集合创建方式:变量名 = {“a”,“b”,“c”}:集合中不允许有重复值# 无论是列表还是元组,访问时都要使用中括号# 列表a = [1, 2, 3, 4]# 元组a = (2, 525, 74, 73, 523, 51, 63, 4, 634, 7, 6)

2021-12-11 22:48:19 436

原创 NameNode HA

一是必须要保证这两个 Namenode 的元数据信息必须要同步的一:元数据信息同步在HA中使用的方案是共享存储,就是说每次写文件时,将日志同步写入到共享储存,这个步骤成功才能判定写文件成功,以便主备切换二是一个 Namenode 挂掉之后 另一个要立马补上二:监控集群状态使用zookeeper,两个节点的状态注册在zookeeper中,Namenode 节点进程监控实时读取zookeeper中的Namenode 状态,如果standby的Namenode 的ZKFC发现主节点的Namenode 挂掉了

2021-08-01 21:40:43 96

原创 HDFS读写流程

1.1:HDFS读流程①客户端向Namenode发送读请求,申请数据块(block)位置信息②Namenode收到请求后,先检查是否有这个文件 其次检查是否有足够的权限,然后返回block列表(针对于每个block,Namenode都会返回该block的Datanode地址)③返回的每个DN地址按照集群拓扑结构找出距离客户端最近的节点,来读取block信息(可以理解为就近原则,短路读取特性)④客户端以Packet为单位接收,先在本地缓存,然后写入目标文件⑤当读完列表的 block 后,若文件读取

2021-08-01 20:05:09 212 1

原创 数仓架构及流程

#数仓架构及流程##日志采集模块1:日志来源:web、app埋点日志、收集到日志服务器2:flume监控日志文件夹,对日志进行采集至Kafka(此过程可以对日志进行一次日志预处理,过滤掉json格式不完整和重要字段为空的数据,并且把日志中的时间戳拿出来,放到head中,以保证HDFS上文件夹的日志和日志时间相吻合)3:使用flume将日志采集到HDFS(在此可以根据业务需要使用GeoHash码表对其进行转换后回补)4:将处理好的数据输出到ODS层##数仓分层介绍tip为什么要分层:1:(

2021-07-31 17:02:09 213 1

原创 Hive相关优化

Hive相关优化1:首先模型设计能解决很大问题,2:其次就是解决数据倾斜,减少job数,3:设置合理的map task和reduce task数可以有效提高性能,4:数据量较大的时候,尽量不要用count(distinct)(会产生数据倾斜),5:对小文件进行合并,6:hive优化主要在于数据倾斜造成的运行压力过大,数据量大不是负载的重点,因为Hadoop天生就是跑批的。(Hadoop 分布式文件系统 (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。)...

2021-07-30 22:21:29 405 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除