自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 spark中的内置函数以及如何处理日期时间

【代码】spark中的内置函数以及如何处理日期时间。

2024-06-29 20:11:27 108

原创 spark中pyspark :add

RDD:(弹性分布式数据集合 ) spark的计算核心,spark采用rdd管理数据RDDRDD是spark的一种数据模型(规定数据的存储结构和计算方法)python中的数据模型list [] 可以重复存储数据 appendset{} 不允许重复存储RDD的模型可以对内存数进行共享管理分布式数据可以在多台服务器上同时计算执行弹性可以根据计算的需求将数据进行分区拆分,本质就是将数据分成多份rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd。

2024-06-25 20:53:09 580

原创 FineReport 数知鸟笔试题

①同步报表目录 ②登录数知鸟平台,配置通讯录 ③在数知鸟平台完成集成配置 ④在帆软决策系统安装"数知鸟"插件,并填写字段 ⑤选填服务器地址(得分:2分 满分:2分)(得分:2分 满分:2分)(得分:2分 满分:2分)甘特图中根据待处理、进行中、已结束的不同需求处理状态区分需求条形图的显示效果(得分:2分 满分:2分)数知鸟仅可以集成finereport,不可以集成fineBI(得分:2分 满分:2分)在帆软决策系统中挂载“知识库-报表管理”界面时,对应的链接是(得分:2分 满分:2分)

2024-06-23 10:57:19 884 1

原创 FineReport 初级证书测试题

在FineReport中,可以对单元格添加超级链接操作,完成一些跳转或一些额外功能,可以添加的超级链接类型有()(得分:0分 满分:2分)在填报时,可以使用暂存功能防止数据丢失,暂存功能是将报表中的数据存在()(得分:2分 满分:2分)决策报表中,其他组件引用报表块中的单元格数据,也可以引用数据集中的数据(得分:2分 满分:2分)为了让第一行标题在报表分页时,分页都可以显示,通常的做法是( )(得分:2分 满分:2分)设计器中建立的所有类型的数据链接在平台数据连接中均会显示(得分:2分 满分:2分)

2024-06-22 21:41:44 890 1

原创 FineReport

SELECT 销售员,sum(销量) as 销售总量 FROM 销量 where 1=1 ${if(len(area)=0,'','and 地区="'+area+'"')} ${if(len(xsy)=0,'','and 销售员="'+xsy+'"')} group by 销售员。SELECT * FROM 销量 where 1=1 ${if(len(area)=0,'','and 地区="'+area+'"')} ${if(len(xsy)=0,'','and 销售员="'+xsy+'"')}

2024-06-18 20:07:11 922 1

原创 python中的数据分析(juypter)

加载数据后的套路df.head()df.info()选择部分数据df[[要选中的列名的列表]]df.loc[,]df.iloc[,]df.query()增加df[新列名] = [新值]删除df.drop()axis =0 可以改成1inplace修改数据return xs.apply(func) # 自定义处理,当修改的逻辑比较复杂的时候修改表结构indexdf.set_index() # 把df中一列数据变成行索引。

2024-06-12 19:44:07 1543 1

原创 python数据分析(juypter)

电商黄金公式销售额 = 访客数 * 转化率 * 客单价GROW阿里AIPL, 字节5A模型 京东4A模型使用这些思维模型,把用户划分成不同的阶段, 从刚注册 → 成为忠实用户可以考察不同时间 处于不同阶段的用户量考核 处于每个阶段用户数量的转化率利用模型 进行目标拆解和追踪。

2024-06-12 19:41:53 1062 2

原创 Python数据分析中DataFrame查询数据操作

df[(df['区域'].isin(['望京租房','回龙观租房'])) & (df['朝向'].isin(['西南 东北','南 北'])) ]df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'区别,insert可以指定插入的位置编号, df['新列名'] = ’新值‘ 插入的新列在df的最后。df.rename(index = {'老值':'新值'},columns={'老值':'新值'})

2024-06-07 16:09:46 684

原创 Python数据分析常用开源库 pycharm

Pandas数据处理的库, 可以做可视化文件类数据交互的是比较好的 CSV Excel环境搭建起来前3天 主要介绍DataFrame的使用 (Pandas的API)第四天 数据可视化Pandas 解决数据分析问题报表, 取数 (SQL, Pandas,Excel)业务分析能力, 应用数据分析的模型 规则模型, 分析套路RFMAARRR同期群分析漏斗分析数据分析报告数据异常波动原因的分析AB测试。

2024-06-07 11:56:15 718

原创 python pycharm中的多任务-正则-装饰器

运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个 计算时时并发执行 5个进程需要抢占cpu资源,谁抢到谁执行代码计算5个进程 cpu核心10个 计算时时并行执行 不需要抢占资源,没个进程都已一个独立的cpu核心使用完成计算多任务在执行计算时,可以执行的同一的计算任务,也可以执行不同的任务进程和线程进程是分配资源的最小单元 线程是执行任务的最小单元实现多任务可以使用多进程或多线。

2024-06-04 15:05:39 846

原创 Python大数据 模块-网络编程-多任务

自定义的模块文件# 封装业务代码name = '张三'data = a+b# 开发人员自己的代码文件print(res)s = Student('张三',20)s.func()

2024-06-01 20:16:54 591

原创 python大数据 pycharm中的面向对象-文件读写-异常

【代码】python大数据 pycharm中的面向对象-文件读写-异常。

2024-05-30 17:58:25 698

原创 python 第四章 函数 (pycharm) (2)

当成参数使用时 则相当于参数引用了全局变量的值,对参数进行操作,不影响全局全局变量的值。本质形参可以理解为函数定义的内部变量,接收外部传递的数据。*args 不能接受关键字传参的数据 接受位置参数的数据。在传递实参数据时,需要按照参数的位置进行数据的传递。在函数外定义,可以在代码中任意位置使用的变量。在函数内直接操作全局变量,会修改全局变量的值。变量的作用域就是指在代码中变量能使用的位置。变量的作用域 指的变量能使用的范围。在函数内定义,在函数内能使用。在函数调用时指定的参数数据。在函数定义时指定的参数。

2024-05-28 20:58:15 556

原创 python (pycharm)第五章 面向函数

lambda 参数1,参数2...:计算逻辑(参数的处理逻辑)# 匿名函数的使用# 加法计算功能data = a+bprint(res)# 使用匿名函数实现# 定义匿名函数时,需要指定一个变量接收# 使用变量调用匿名函数封装对问题的归纳总结,封装为一个类继承对已经封装的类进行继承,在原来类的基础上可以再次增加新的内容人类的操作性别,年龄,地址。。上班学习吃饭继承人类 原来的数据和行为都会被继承下来性别,年龄,地址,手机号,收入上班学习吃饭睡觉玩游戏多态。

2024-05-28 19:42:50 880

原创 python 第四章 函数 (pycharm) (1)

函数中三要素函数名 必须定义参数 (可选)将数据传递函数中使用返回值 (可选)将函数中的数据传递外部进行使用# 函数的介绍# 功能1def login(name_list,password_list): # 接受参数# 函数作用域# 通过四个空格,来确认函数所执行的逻辑从哪里开始name = input('请输入用户名:')password = input('请输入密码:')# 先判断用户名是否正确# 在判断密码是否正确print('登录成功')

2024-05-27 20:12:22 836

原创 python第三章 : 元组,字典,集合

元组定义# 元组只有一个元素数据时,需要加逗号data_tuple7 = ('张三',)# 元组是有序数据,支持下标# 容器都支持for循环取值print(i)# 字典定义# 字典中不要重复定义key值,保证key值唯一# 使用key的下标值进行value部分取值# 字典下标不支持切片操作# 集合的定义# data_set5 = {{'id':1,'name':'张三'},{'id':2,'name':'李四'}}

2024-05-27 20:02:28 484

原创 python 第二章 循环和容器

容器就是存放数据的python 中的容器数据有多种形式,每种形式有自己的存储格式, 数据存储特性不一样字符串 str 就是容器 存放一个一个字母 格式 : 单引号 '数据' ,双引号 "数据" ,三个引号 """ 数据 """列表 list 格式: [数据1,数据2,数据3.....]元祖 tuple 格式: (数据1,数据2,数据3,)集合 set 格式: {数据1,数据2,数据3,}字典 dict 格式: {key1:value1,key2:value....}数据存储的特性有序和无序。

2024-05-24 19:44:43 996 1

原创 Python基础第一章

Python的应用场景主要是使用Python各类模块进行相关功能开发网站Web开发Django,Flask,FastAPI等模块开发游戏Pygame模块(小游戏)人工智能NLP自然语言处理和CV视觉处理主要使用机器学习算法完成PyTorch模块 TensorFlow模块 opencv模块大数据开发pyspark 开发spark程序pyflink 开发flink程序hdfs模块 操作hdfs数据采集requests模块scrapy 模块测试开发pytest运维开发。

2024-05-23 19:45:43 1076

原创 Mysql知识总结

(3)select 其他列,新别名 from 表名 lateral view explode(split(分割列,'分隔符')) tb1 as 新别名;insert into new_tb_user partition(gender=0) values(1,'张',20,'2024-10-10 14:21:21');-- 先分前100个。二级:select 列 from 表 [where] order by 条件(1) (升/降), 条件(2) (升/降);-- 所有数据都复制。

2024-05-20 19:48:48 1267 5

原创 hdfs中MapReduce中的shuffle,combine和partitioner(hadoop,Hdfs)

如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key的 hashcode 值摸运算(%) reduce 的数量 ,得到的数字就是“分区号”。

2024-05-20 11:25:38 497

原创 Hadoop的调度器总结

目前 ,Hadoop作业调度器主要有三种 :FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资 源调度器是Capacity Scheduler。

2024-05-19 08:42:31 401

原创 大数据项目流程中的思路

如果最后的需求有多样性需要通过多层DM层进行筛选可以通过编写文档例如要思路保持清晰。

2024-05-17 16:08:55 474

原创 hdfs中的yarn以及hdfs的数据压缩算法 (Hadoop,hive,hdfs,yarn)

Hadoop 服务器中的架构:加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。

2024-05-17 08:42:46 1001

原创 HDFS小文件优化方法 (Hadoop,hive,hdfs)

HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时 候 ,就会产生很多的索引文件,一方面会大量占用namenode的内存空间 ,另一方面就是索引文件过大是的索引速 度变慢。

2024-05-15 13:59:01 350

原创 Hadoop慢的原因以及如何优化

mapreduce 跑的慢的原因?1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化mapreduce 优化方法:1)数据输入 2)map 阶段 3)reduce阶段 4)IO运输 5)数据倾斜问题

2024-05-14 10:35:01 1188

原创 hdfs 中 Map Tas工作机制(Hadoop,hive,hdfs)

Map Task通过用户编写的RecordReader ,从输入InputSplit中解析出一个个key/value。

2024-05-13 20:10:44 442

原创 hdfs中的小知识(hadoop hdfs hive)

(1)自定义一个类继承FileInputFormat(2)改写RecordReader ,实现一次读取一个完整文件封装为KV。

2024-05-13 14:49:44 340 1

原创 大数据项目中的拉链表(hadoop,hive)

在原始数据增加两个新字段 起始时间(有效时间:什么时候导入的数据的时间),结束时间(默认的结束时间为9999-99-99)操作指令: select if(表名.字段 is null,结束时间,现在时间-1) as end_time。处理时间是处理昨天的数据 因为是今天处理昨天的时间 有效结束时间应该是昨天。如果有效时间为9999-99-99 说明当前数据为最新数据。数据有变化会显示新数据,没有则显示null 数据没有变化。拉链表,可实现数据快照,可以将历史和最新数据保存在一起。

2024-05-13 11:48:28 612 1

原创 大数据中Hadoop序列化和反序列化及自定义bean对象实现序列化?

(1)必须实现Writable接口(2)反序列化时 ,需要反射调用空参构造函数 ,所以必须有空参构造(3)重写序列化方法(4)重写反序列化方法(5)注意反序列化的顺序和序列化的顺序完全一致(6)要想把结果显示在文件中 ,需要重写toString() ,且用”\t”分开 ,方便后续用 (7)如果需要将自定义的bean放在key中传输 ,则还需要实现comparable接口 ,因为mapreduce框中 的 shuffle过程一定会对key进行排序。

2024-05-11 19:34:09 520 1

原创 大数据项目流程中 hive优化

1.当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试。2-开启SMB Join支持: set hive.auto.convert.sortmerge.join=true;将那些产生倾斜的key和对应v2的数据, 从当前这个MR中移出去, 单独找一个MR来处理即可, 处理后, 和之前的MR进行汇总结果即可;

2024-05-10 19:43:29 1170

原创 大数据中Hadoop序列化和反序列化及自定义bean对象实现序列化?(hive,hadoop,hdfs)

Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后 ,会附带很多额外的信息 ( 各种校验信息 ,header,继承体系等),不便于在网络中高效传输。-序列化就是把内存中的对象 ,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传 输。-反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。(6)要想把结果显示在文件中 ,需要重写toString() ,且用”\t”分开 ,方便后续用。1)序列化和反序列化。

2024-05-08 19:40:50 445 1

原创 大数据中namenode与secondary node(hive,hadoop)

(1)第一次启动namenode格式化后 ,创建fsimage和edits文件。如果不是第一次启动 ,直接加载编辑 日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求(3)namenode记录操作日志 ,更新滚动日志。(4)namenode在内存中对数据进行增删改查。

2024-05-08 08:37:25 419

原创 大数据中服役新数据节点和退役旧节点步骤(hive,hadoop)

当要新上线数据节点的时候 ,需要把数据节点的名字追加在 dfs.hosts(1)关闭新增节点的防火墙(2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname(3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname(4)在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作(5)在 NameNode 节点上的 dfs.hosts 中追加上新增节点的 hostname,

2024-05-07 19:54:03 748

原创 pyhthon 大数据项目流程中的任务调度和业务介绍

官网Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以。

2024-05-04 19:53:10 1372

原创 python大数据项目中的 DIM层数据处理

ZooKeeper是一个具有高可用性的高性能分布式协调服务。

2024-05-04 19:42:21 897

原创 大数据开发工作中的数仓设计(Hadoop,hive ,mysql )

数据仓库是由一整套体系构成,包含数据采集,数据存储,数据计算,数据展示等数据仓库主要作用对过往的历史数据进行分析处理,为公司决策停供数据支撑。表命名分层_主题_实体+业务+维度_分区分层 ods,dw,dwd主题 sale(销售主题) user(用户主题)实体+业务+维度示例:mysql中的表名+计算维度规范不是前置要求,不同公司可能根据业务设计表名字段类型规范数量类型整数为bigint金额类型为decimal(27, 2),表示:27位有效数字,其中小数部分2位。

2024-04-29 19:48:45 1628 5

原创 大数据中的项目数据采集

官网:DataX 是阿里云的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

2024-04-29 09:05:08 1684 3

原创 大数据开发项目流程

- ***自下而上 先确认下游的计算需求,根据计算需求向上要计算的数据,将需要计算的数据导入数仓。-- 再导入数据时,直接将所有数据导入数仓,在根据需求从数仓中筛选数据进行计算。-- 事实表 计算内容作为事实表 (例如用户量 事实表)表的元数据 :表名 字段 字段类型 约束等 元数据就是对数据本身的描述。-- 维度表 分组数据 (例如月 日 时间维度表 )hive 在进行表数据操作时,是将表的数据拆成两部分操作。-- *** 数据是自上而下进行开发,上是尚有数据。

2024-04-25 21:36:18 982 2

原创 Oracle 中的函数

存储一些 事物性操作 (把一个过程存储下来)不需要返回值任何结果的(没有返回值)可以返回值(传出参数)返回多个返回值参数比较多传出参数 out传入参数 in (什么也不加 默认就是 in)传出传入参数。

2024-04-24 19:41:02 1318

原创 Oracle中的 plsql语法

复杂的业务逻辑 可以使用 编程语言实现 sql无法实现plsql也可以实现复杂的业务逻辑为不直接使用编程语言 而是学习plsqlplsql会比直接使用 编程语言 速度更快。

2024-04-22 19:39:47 795

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除