火+华=烨-CSDN博客

原创 FineReport报表

聚合报表指一个报表中包含多个模块，每一块都类似一张单独的报表或者一张图表，块与块之间相对独立，互不影响。聚合报表特点：空白画布式设计界面，每个模块相互独立，专门解决大报表难题，单元格扩展分离，互不影响。聚合报表还存在一些不足：不支持自适应，单元格扩展分离但组件依旧相互推开。

2024-06-20 20:01:57 505

原创 FineReport制作普通报表

报表是以表格、图表的形式来动态展示数据，企业通过报表进行数据分析，进而用于辅助经营管理决策。FineReport 是一款用于报表制作，分析和展示的工具，用户通过使用 FineReport 可以轻松的构建出灵活的数据分析和报表系统，大大缩短项目周期，减少实施成本，最终解决企业信息孤岛的问题，使数据真正产生其应用价值。

2024-06-15 21:04:50 1575

原创 TGI模型- 同期群-评论文本

要分析的目标，在目标群体中的均值和全部群体里的均值进行比较，差的越多说明目标群体偏好越明显TGI（Target Group Index，目标群体指数）用于反映目标群体在特定研究范围内强势或者弱势的程度案例的需求，高利润的产品投放市场，找到合适的城市进行投放，统计不同城市高客单价用户占比的TGI ，找到TGI比较大的城市，还需要考虑总用户数量不要过少。

2024-06-15 20:22:37 1104

R recency 最近分成两类 7天以内来过高低F frequency 次数 90天以内 >15次高低M monetory 金额 90天以内消费 >1500 高低计算RFM需要什么样的数据带着会员ID的购物流水就可以计算RFMid 时间金额RFM适合落地的业务必须有消费，频率不能太低，最适合的业务就是电商，外卖，旅游，打车RFM如何使用最简单的用法就是三个维度做二分高低高低高低给用户分成8群还可以考虑做三分低中高 1,2,3 给用户分成27群。

2024-06-12 20:27:22 1156 3

原创 python---Seaborn图表绘制

电商黄金公式销售额 = 访客数 * 转化率 * 客单价GROW阿里AIPL，字节5A模型京东4A模型使用这些思维模型，把用户划分成不同的阶段，从刚注册 → 成为忠实用户可以考察不同时间处于不同阶段的用户量考核处于每个阶段用户数量的转化率利用模型进行目标拆解和追踪。

2024-06-12 20:16:27 1350

原创 python-df的合并与Matplotlib绘图

join = 'inner' 默认 ‘outer’ outer 会保留连接的两张表的所有的信息，有列名、行名不匹配的时候，用NaN填充，如果是inner 只会连接行名、列名相同的部分。uniqlo_df_offline.pivot_table(index='城市',columns='产品名称',values='销售金额',aggfunc='sum')suffixes 后缀，当关联结果中，出现了同名的字段，用于区分哪个字段来自于哪一张表，默认是(' _ x', '_ y')

2024-06-07 20:32:05 1463

原创 python-数据分析-缺失值-函数-数据类型

df.groupby(['区域','户型'],as_index=False).agg({'价格':'mean','面积':'max'})df_result2 = df.groupby(['区域','户型']).agg({'价格':'mean','面积':'max'})df_result= df.groupby('区域')[['价格','面积']].agg(['mean','max'])多个字段分组，多个字段聚合，得到的结果 MultiIndex 通过MultiIndex 做数据筛选，传入的是元组。

2024-06-06 20:54:02 1112

原创 python-DataFrame

df[(df['区域'].isin(['望京租房','回龙观租房'])) & (df['朝向'].isin(['西南东北','南北'])) ]df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'区别，insert可以指定插入的位置编号， df['新列名'] = ’新值‘ 插入的新列在df的最后。df.rename(index = {'老值':'新值'},columns={'老值':'新值'})

2024-06-05 16:10:55 727

原创 python-panda

s.index # Series的索引，如果手动指定，就是一个ndarray类型，如果是自动生成 rangeIndex()count 计数，unique 唯一值的数量， top出现次数最多的字符串是啥 freq 出现次数最多的字符串出现的频率（次数）修改数据的API默认不会再原始的数据上进行修改，而是会在副本上进行修改，并且会把这个修改后的副本作为方法的返回值，返回来。如果两行行索引不一样，不能在一起算，如果一个Series里有的行索引，另一个Series没有，返回NaN。

2024-06-05 16:08:28 1025

原创 python-Series-DataFrame

s.index # Series的索引，如果手动指定，就是一个ndarray类型，如果是自动生成 rangeIndex()count 计数，unique 唯一值的数量， top出现次数最多的字符串是啥 freq 出现次数最多的字符串出现的频率（次数）修改数据的API默认不会再原始的数据上进行修改，而是会在副本上进行修改，并且会把这个修改后的副本作为方法的返回值，返回来。如果两行行索引不一样，不能在一起算，如果一个Series里有的行索引，另一个Series没有，返回NaN。

2024-06-04 21:16:33 1200

原创 python-多任务-正则-装饰器

运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个计算时时并发执行 5个进程需要抢占cpu资源，谁抢到谁执行代码计算5个进程 cpu核心10个计算时时并行执行不需要抢占资源，没个进程都已一个独立的cpu核心使用完成计算多任务在执行计算时，可以执行的同一的计算任务，也可以执行不同的任务进程和线程进程是分配资源的最小单元线程是执行任务的最小单元实现多任务可以使用多进程或多线。

2024-06-04 21:06:48 953

原创 python-模块-网络编程-多任务

网络通讯就是程序之间进行通讯，相互传递数据内容网络通讯三要素（1）IP地址：网络虚拟环境下的唯一标识，类似于人的身份证号，通过IP可以找到计算机；（2）端口：表示计算机中某软件的地址信息，通过端口可以找到计算机中的软件；（3）协议：协议就是通信规则，程序之间必须按照规则传递信息，否则双方无法识别彼此信息本质就是编写一个python文件文件名要符合python的命名规范定义一个模块文件# 自定义的模块文件# 封装业务代码name = '张三'data = a+b。

2024-06-01 08:35:08 988

原创 python--面向对象-文件读写-异常

f = open('D:/Python大数据就业/4-Python基础/day06-面向对象-文件处理-异常-模块/4-资料/students.txt','r',encoding='utf-8')1-定义一个父类，在父类中定义需要执行的业务方法，具体方法的逻辑不用实现，直接pass，由继承的子类实现。子类重写父类方法，在调用时执行的子类的逻辑，还想调用父类方方法，需要借助super()方法实现。子类中定义了和父类相同的方法，就是对父类方法的重写，在执行方法时，使用的是子类的逻辑代码。

2024-05-31 08:36:59 1086

原创 python-面向对象

程序开发时，有两种编程思想面向过程侧重点是过程按照一定的顺序步骤完成对某一特定问题的处理如何将大象放入冰箱中？1-打开冰箱门2-将大象放入冰箱3-关上冰箱门如何将老虎放入冰箱中？1-打开冰箱门2-将老虎放入冰箱3-关上冰箱门如何将狮子关在笼子中？1-打开笼子门2-将狮子赶入笼子中3-关上笼子门面向过程需要针对某一类问题需要重复编写代码面向对象侧重点在对象将一类问题进行归纳总结，按照一个统一标准处理同一类问题如何将一项物品放入一个空间内?物品是什么？和空间是什么？

2024-05-28 20:59:49 750

原创 python- 函数及参数

函数就是代码片段的封装，实现某一特定功能，当程序中需要执行该功能时，可以通过函数调用方式，执行函数中封装的代码片段函数中三要素函数名必须定义参数（可选）将数据传递函数中使用返回值（可选）将函数中的数据传递外部进行使用# 函数的介绍# 功能1def login(name_list,password_list): # 接受参数# 函数作用域# 通过四个空格，来确认函数所执行的逻辑从哪里开始name = input('请输入用户名:')

2024-05-27 21:08:45 1059

原创 python03--元组-字典-集合

元组定义# 元组只有一个元素数据时，需要加逗号data_tuple7 = ('张三',)# 字典定义# 字典中不要重复定义key值，保证key值唯一# 使用key的下标值进行value部分取值# 字典下标不支持切片操作# 集合的定义# data_set5 = {{'id':1,'name':'张三'},{'id':2,'name':'李四'}}有序的数据可以通过下标和for循环取值list[0]str[0]tuple[0]dict[key]

2024-05-26 19:53:53 1138

原创 python02 循环与容器

容器就是存放数据的python 中的容器数据有多种形式，每种形式有自己的存储格式, 数据存储特性不一样字符串 str 就是容器存放一个一个字母格式 : 单引号 '数据' ，双引号 "数据" ,三个引号 """ 数据 """列表 list 格式: [数据1，数据2，数据3.....]元祖 tuple 格式: (数据1，数据2，数据3，)集合 set 格式: {数据1，数据2，数据3，}字典 dict 格式: {key1:value1,key2:value....}数据存储的特性有序和无序。

2024-05-24 19:52:51 1019 1

原创 python01

Python是一个计算编程语言，可以实现计算程序开发，也可以用于数据处理。SQL语言只能用于结构化数据的处理。Python的比SQL应用更广泛。1990年推广Python，最初是应用于运维开发，随着不断更新迭代Python的功能更加丰富，在更多场景中进行使用。Python的特点简单易学Python的应用场景主要是使用Python各类模块进行相关功能开发网站Web开发Django，Flask，FastAPI等模块开发游戏Pygame模块(小游戏)人工智能NLP自然语言处理和CV视觉处理。

2024-05-24 08:44:40 1056 1

原创 Hadoop

HDFS分布式文件存储系统: 负责海量数据的存储工作MapReduce分布式计算框架: 负责海量数据的计算工作Yarn分布式资源调度工具: 负责分布式集群的资源调度工作创始人: 道格·卡丁Hadoop发行时间: 2008年hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车社区版: 开源免费优点: 更新速度快,技术新缺点: 兼容性差不稳定商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题优点: 兼容稳定性好确定: 技术旧,收费。

2024-05-13 21:49:42 814

原创 hive优化

当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试.校验数据的可行性(质量校验)进行统计分析的时候, 并不需要统计出具体的指标, 可能统计的都是一些相对性指标, 比如说一些比率(合格率)问题, 此时可以通过采样处理。

2024-05-10 20:26:51 622 1

原创大数据---销售主题域开发

销售数据统计时分为两种情况一种时确认售卖成功的，售卖不成功线上业务设计配送问题，如果用户拒收，就相当于没有售卖成功根据售卖情况将主题域分为两部分核销真正售卖成功的核销主题售卖只要商品出货信息，考虑是否售卖成功售卖主题销售主题域分为核销主题售卖主题分层采用自下而上、基于需求、逐层分析出每一层工作内容ADS层数据展示层根据需求确认对应表商品销售分析经营情况分析营销情况分析DW层维度建模确认事实和维度将事实表和维度表关联。

2024-05-05 20:04:10 1101 2

原创大数据---任务调度和业务介绍

官网(中文文档)Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。

2024-05-05 19:46:03 1184 2

原创大数据---DIM层数据处理

ZooKeeper是一个具有高可用性的高性能分布式协调服务。官网。

2024-05-04 21:51:05 1097

原创大数据-数仓设计

数据仓库是由一整套体系构成，包含数据采集，数据存储，数据计算，数据展示等数据仓库主要作用对过往的历史数据进行分析处理，为公司决策停供数据支撑。主题是对数据进行归类，每个分类是一个主题主题域根据分析的领域，将联系较为紧密的数据主题的集合在一起主题域下面可以有多个主题，主题还可以划分成更多的子主题，主题和主题之间的建设可能会有交叉现象表命名分层_主题_实体+业务+维度_分区分层 ods，dw，dwd主题 sale（销售主题） user（用户主题）实体+业务+维度示例：mysql中的表名+计算维度。

2024-05-04 21:38:23 1045

原创大数据的数据采集

官网：DataX 是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

2024-05-04 20:53:54 868

原创 oracle进阶2

存储过程是被命名的 PL/SQL 块，存储于数据库中，是数据库对象的一种。应用程序可以调用存储过程，执行相应的逻辑。存储过程与存储函数都可以封装一定的业务逻辑并返回结果，存在区别如下：1、存储函数中有返回值，且必须返回；而存储过程没有返回值，可以通过传出参数返回多个值。2、存储函数可以在select 语句中直接使用，而存储过程不能。过程多数是被应用程序所调用。3、存储函数一般都是封装一个查询结果，而存储过程一般都封装一段事务代码。

2024-04-24 20:28:43 733 1

原创 PL/SQL语法-01

- todo 1 变量的基本用法(根据提示计算水费)-- 声明变量水费单价 v_price、水费字数 v_usenum、吨数 v_usenum2、金额 v_money。-- 对水费单价=2.24、字数=8012、进行赋值-- 吨数根据水费字数换算，规则为水费字数除以1000，并且四舍五入，保留两位小数。-- 计算金额，金额=单价*吨数。-- 输出单价、吨数和金额。

2024-04-22 20:26:19 290

原创 oracle进阶

物化视图与普通的视图相比的区别是物化视图是建立的副本，它类似于一张表，需要占用存储空间,它是真实存在的,用来提高查询速度,一个可以产生唯一数字设置起始位置设置增长数量最大值最小值循环。

2024-04-21 21:54:39 844 1

原创 oracle 窗口函数需求总结

第二类:TOP N问题什么是窗口函数窗口函数也叫作OLAP（Online Analytical Processing，联机分析处理）函数，可以对数据库中的数据进行复杂分析。窗口函数的通用语法如下：<窗口函数>over(partition by<用于分组的列名>order by <用于排序的列名>)我们看一下这个语法里每部分表示什么。（1）<窗口函数>的位置可以放两种函数：一种是专用窗口函数，比如用于排名的函数，比如rank()、dense_rank()、row_number()；

2024-04-20 21:36:26 1964

原创 oracle基础

ORACLE 数据库系统是美国 ORACLE 公司（甲骨文）提供的以分布式数据库为核心的一组软件产品，是目前最流行的客户/服务器(CLIENT/SERVER)或B/S 体系结构的数据库之一。ORACLE 通常应用于大型系统的数据库产品。ORACLE 数据库是目前世界上使用最为广泛的数据库管理系统，作为一个通用的数据库系统，它具有完整的数据管理功能；作为一个关系数据库，它是一个完备关系的产品；作为分布式数据库它实现了分布式处理功能。ORACLE 数据库具有以下特点：（1）支持多用户、大事务量的事务处理。

2024-04-18 22:00:01 366 1

anhaoye的博客