自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【无标题】Python的模块

该方式导入特点,用到谁就导入谁,调用功能不需要加模块名,可以给功能名起别名,避免避免不同模块功能名重复。# 这种导入方式在调用功能时,比如函数,必须使用:模块名.函数名(),可以给模块起别名,方便调用。print('这是我定义的模块my_module1-func1函数')print('这是我定义的模块my_module1-func2函数')2、我们可以调用别人写的模块,也可以调用自己写的模块,别人也可以用我的模块。# 这种导入方式在调用功能时,比如函数,必须使用:模块名.函数名()

2024-03-11 13:17:45 308

原创 Python文件的读写

r+:读写,如果文件不存在,则报错,如果文件存在,不会删除原来文件内容,如果写入,默认从头写入,可能会覆盖原来内容。#copy2()方法会复制源文件的所有属性,如文件的创建时间、最后修改时间等,不会更改目标文件的属性。每个开发模式都可以加上 b,表示通过二进制操作,可以操作任何类型文件(图片,视频)w+:读写,如果文件不存在,则创建新文件,如果文件存在,会删除原来文件内容。f.write('你好,中国!'.encode('utf-8'))1、如果文件存在,则读取文件内容。1、如果文件存在,则读取文件内容。

2024-03-11 13:14:07 485

原创 yarn的三大调度策略

Fair(公平调度): FaceBook推出的, 后续要用的CDH(Cloudera公司提供的Hadoop, 商业版)的Yarn调度器就是这个.Capacity(容量调度): 我们用的Apache Hadoop(社区版Hadoop), Yarn的底层默认用的就是这种调度器.每个任务获取集群的资源, 都是公平的, 均分的, 例如: 1个任务, 就占用 100%资源,1. 每个计算任务不能独享集群100%的资源, 存在着资源闲置(浪费)的情况.2. 如果只要1个任务, 则它可以共享集群100%的资源.

2024-01-29 17:12:49 647

原创 HDFS写数据与读数据

核心词: 请求, 校验权限, 切块, Pipeline(传输管道), ACK反向应答机制(ACK确认机制), 数据报包(64KB), 重复至完成.4. Client(客户端)读取完毕后, 会循环namenode获取剩下所有的(或者部分的块信息), 并行读取, 直至所有数据读取完毕.10. 返回第4步, 客户端(Client)重新请求第2个Block的上传位置, 重复上述动作, 直至所有的Block块传输完毕.3. Client(客户端)会连接上述的机器(节点), 并行的从中读取块的数据.

2024-01-27 13:37:02 338

原创 【无标题】hive调优

例如: 大量的小文件, 就会有大量的Block块, 就有大量的MapTask任务, 针对于这种情况: 我们可以使用归档技术, 把多个小文件合并成1个大文件, 降低MapTask任务数.默认Hive同一时间只能执行1个阶段, 如果多个阶段之间的依赖度比较低, 就可以开启并行执行, 让多个阶段同时执行, 降低MR job任务的执行时间.-- 在所有执行MR的节点上,最大一共可以创建多少个动态分区。more: 默认的, 全表扫描, 查询指定的列, limit分页查询, 简单查询不走MR, 其它的要转MR任务.

2024-01-23 13:50:45 338 1

原创 hivesql解决中文乱码问题

细节:修改编码后创建的表comment才能变成中午,因为之前的注释已经按latin1编码进行编码了,无法改变。在hiveSQL中使用的是latin1,此编码一个字符表示一个字节,而一个中文在utf8中占3个字节。username string comment '用户名',username string comment '用户名',问题描述:第一次建表并执行发现comment后的注释乱码。id int comment '编号',到MySQL中打开一个窗口,执行以下代码。结果如下,发现注释乱码。

2024-01-22 10:06:16 843

原创 ETL与ELT的区别

ETL,即Extract-Transform-Load,是一种从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中的过程。这种过程通常用于大规模数据处理和分析,例如,从多个业务系统中提取数据,然后转换和加载到数据仓库中,以进行深入分析和报告生成。随着云计算、人工智能等技术在数据集成过程的应用,ELT已成为首选的操作顺序,更好地利用更少的资源在多个平台上处理更大的、更复杂的数据。ETL和ELT都是用于数据集成的方法,但它们在处理数据时的顺序和方式有所不同。

2024-01-10 19:54:13 731

原创 【无标题】数据仓库和数据库的区别

OLTP(On Line Transaction Processing), 联机事务处理, 主要是面向事务(业务)的, 操作的是在线数据,主要是增删改查操作, 数据量相对较小, 事务性(安全性)要求较高, 时效性要求也相对较高.OLAP(On Line Analytical Processing), 联机分析处理, 主要是面向主题的, 操作的是离线数据(历史数据),主要是查询操作, 数据量相对较大, 对数据的事务性, 时效性要求相对较低.数据仓库和数据库的区别如下。

2024-01-10 19:43:50 388

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除