sparks@fly-CSDN博客

原创【无标题】Python的模块

该方式导入特点，用到谁就导入谁，调用功能不需要加模块名,可以给功能名起别名，避免避免不同模块功能名重复。# 这种导入方式在调用功能时，比如函数，必须使用：模块名.函数名()，可以给模块起别名，方便调用。print('这是我定义的模块my_module1-func1函数')print('这是我定义的模块my_module1-func2函数')2、我们可以调用别人写的模块，也可以调用自己写的模块，别人也可以用我的模块。# 这种导入方式在调用功能时，比如函数，必须使用：模块名.函数名()

2024-03-11 13:17:45 355

原创 Python文件的读写

r+:读写，如果文件不存在，则报错，如果文件存在，不会删除原来文件内容，如果写入，默认从头写入，可能会覆盖原来内容。#copy2()方法会复制源文件的所有属性，如文件的创建时间、最后修改时间等，不会更改目标文件的属性。每个开发模式都可以加上 b，表示通过二进制操作，可以操作任何类型文件(图片，视频)w+:读写，如果文件不存在，则创建新文件，如果文件存在，会删除原来文件内容。f.write('你好,中国!'.encode('utf-8'))1、如果文件存在，则读取文件内容。1、如果文件存在，则读取文件内容。

2024-03-11 13:14:07 653

原创 yarn的三大调度策略

Fair(公平调度): FaceBook推出的, 后续要用的CDH(Cloudera公司提供的Hadoop, 商业版)的Yarn调度器就是这个.Capacity(容量调度): 我们用的Apache Hadoop(社区版Hadoop), Yarn的底层默认用的就是这种调度器.每个任务获取集群的资源, 都是公平的, 均分的, 例如: 1个任务, 就占用 100%资源,1. 每个计算任务不能独享集群100%的资源, 存在着资源闲置(浪费)的情况.2. 如果只要1个任务, 则它可以共享集群100%的资源.

2024-01-29 17:12:49 879

原创 HDFS写数据与读数据

核心词: 请求, 校验权限, 切块, Pipeline(传输管道), ACK反向应答机制(ACK确认机制), 数据报包(64KB), 重复至完成.4. Client(客户端)读取完毕后, 会循环namenode获取剩下所有的(或者部分的块信息), 并行读取, 直至所有数据读取完毕.10. 返回第4步, 客户端(Client)重新请求第2个Block的上传位置, 重复上述动作, 直至所有的Block块传输完毕.3. Client(客户端)会连接上述的机器(节点), 并行的从中读取块的数据.

2024-01-27 13:37:02 375

原创【无标题】hive调优

例如: 大量的小文件, 就会有大量的Block块, 就有大量的MapTask任务, 针对于这种情况: 我们可以使用归档技术, 把多个小文件合并成1个大文件, 降低MapTask任务数.默认Hive同一时间只能执行1个阶段, 如果多个阶段之间的依赖度比较低, 就可以开启并行执行, 让多个阶段同时执行, 降低MR job任务的执行时间.-- 在所有执行MR的节点上，最大一共可以创建多少个动态分区。more: 默认的, 全表扫描, 查询指定的列, limit分页查询, 简单查询不走MR, 其它的要转MR任务.

2024-01-23 13:50:45 390 1