自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 FineReport报表案例

普通报表保存的文件类型为 cpt,依靠着单元格的扩展与父子格的关系来实现模板效果,可进行参数查询,填报报表,图表设计等等,但是在分页预览模式下不能在报表主体中展示控件,而且单元格间相互影响,很难保持独立性。控制面板:下拉框可以选择地区,点击查询按钮后,只查询出该地区对应的表格和柱形图数据。表格:表格统计该地区下各销售员每种产品的总销量。柱形图:柱形图将该地区下各销售员每种产品的总销量以图表的形式进行展示。报表开发流程。

2024-06-22 19:52:04 298

原创 FineReport安装及入门

报表是以表格、图表的形式来动态展示数据,企业通过报表进行数据分析,进而用于辅助经营管理决策。FineReport 是一款用于报表制作,分析和展示的工具,用户通过使用 FineReport 可以轻松的构建出灵活的数据分析和报表系统,大大缩短项目周期,减少实施成本,最终解决企业信息孤岛的问题,使数据真正产生其应用价值。

2024-06-20 19:47:30 315

原创 Pandas——词云图绘制

data_pair=negtive_words_wordcloud, #传入绘制词云图的数据 [[要展示的词, int值],[要展示的词2, int值]]word_size_range=[16, 80]) #word_size_range 字号大小取值范围。拉数据, 最近半年数据列出来, 分渠道, 分城市, 分设备类型.. 做同期群。折线图, 饼图, 柱状图, 堆积柱状图, 散点图 基本图表为主。.add(series_name="好评词云",[(文本, 数值),(文本2,数值2)....]

2024-06-19 19:38:45 404

原创 Pandas——用户偏好分析

要分析的目标,在目标群体中的均值 和 全部群体里的均值进行比较, 差的越多说明 目标群体偏好越明显TGI(Target Group Index,目标群体指数)用于反映目标群体在特定研究范围内强势或者弱势的程度案例的需求, 高利润的产品投放市场, 找到合适的城市进行投放, 统计不同城市高客单价用户占比的TGI ,找到TGI比较大的城市, 还需要考虑总用户数量不要过少。

2024-06-18 19:38:02 723

原创 Pandas——数据分析业务

R recency 最近 分成两类 7天以内来过 高 低F frequency 次数 90天以内 >15次 高 低M monetory 金额 90天以内消费 >1500 高 低计算RFM需要什么样的数据带着会员ID的购物流水就可以计算RFMid 时间 金额RFM适合落地的业务必须有消费,频率不能太低, 最适合的业务就是电商,外卖,旅游,打车RFM如何使用最简单的用法就是三个维度做二分 高低 高低 高低 给用户分成8群还可以考虑做三分 低中高 1,2,3 给用户分成27群。

2024-06-16 19:57:25 659

原创 Pandas——数据可视化

电商黄金公式销售额 = 访客数 * 转化率 * 客单价GROW阿里AIPL, 字节5A模型 京东4A模型使用这些思维模型,把用户划分成不同的阶段, 从刚注册 → 成为忠实用户可以考察不同时间 处于不同阶段的用户量考核 处于每个阶段用户数量的转化率利用模型 进行目标拆解和追踪。

2024-06-15 19:42:51 658

原创 Pandas——数据连接和可视化

join = 'inner' 默认 ‘outer’ outer 会保留连接的两张表的所有的信息, 有列名、行名不匹配的时候, 用NaN填充, 如果是inner 只会连接 行名、列名相同的部分。uniqlo_df_offline.pivot_table(index='城市',columns='产品名称',values='销售金额',aggfunc='sum')suffixes 后缀, 当关联结果中,出现了同名的字段, 用于区分哪个字段来自于哪一张表, 默认是(' _ x', '_ y')

2024-06-15 08:35:42 799

原创 Pandas——常用函数

df.groupby(['区域','户型'],as_index=False).agg({'价格':'mean','面积':'max'})df_result2 = df.groupby(['区域','户型']).agg({'价格':'mean','面积':'max'})df_result= df.groupby('区域')[['价格','面积']].agg(['mean','max'])多个字段分组, 多个字段聚合, 得到的结果 MultiIndex 通过MultiIndex 做数据筛选, 传入的是元组。

2024-06-12 19:46:10 737

原创 Pandas——DataFrame操作

df[(df['区域'].isin(['望京租房','回龙观租房'])) & (df['朝向'].isin(['西南 东北','南 北'])) ]df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'区别,insert可以指定插入的位置编号, df['新列名'] = ’新值‘ 插入的新列在df的最后。df.rename(index = {'老值':'新值'},columns={'老值':'新值'})

2024-06-11 19:49:24 657

原创 Pandas的数据结构

count 计数,unique 唯一值的数量, top出现次数最多的字符串是啥 freq 出现次数最多的字符串出现的频率(次数)修改数据的API默认不会再原始的数据上进行修改, 而是会在副本上进行修改, 并且会把这个修改后的副本作为方法的返回值, 返回来。如果两行行索引不一样,不能在一起算, 如果一个Series里有的行索引, 另一个Series没有, 返回NaN。可以传入字典 {‘列名’:[值1,值2, 值3],‘列名2’:[值1,值2, 值3]}

2024-06-07 21:17:23 510

原创 python基础——-多任务-正则-装饰器

运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个 计算时时并发执行 5个进程需要抢占cpu资源,谁抢到谁执行代码计算5个进程 cpu核心10个 计算时时并行执行 不需要抢占资源,没个进程都已一个独立的cpu核心使用完成计算多任务在执行计算时,可以执行的同一的计算任务,也可以执行不同的任务进程和线程进程是分配资源的最小单元 线程是执行任务的最小单元实现多任务可以使用多进程或多线。

2024-06-06 19:41:59 698

原创 python基础——模块-网络-多任务

网络通讯就是程序之间进行通讯,相互传递数据内容网络通讯三要素(1)IP地址:网络虚拟环境下的唯一标识,类似于人的身份证号,通过IP可以找到计算机;(2)端口:表示计算机中某软件的地址信息,通过端口可以找到计算机中的软件;(3)协议:协议就是通信规则,程序之间必须按照规则传递信息,否则双方无法识别彼此信息本质就是编写一个python文件文件名要符合python的命名规范定义一个模块文件# 自定义的模块文件# 封装业务代码name = '张三'​data = a+b​​​。

2024-06-04 19:45:35 567

原创 python基础——面向对象-文件读写-异常

定义一个类时,需要使用另外一个类的方法或属性,就可以通过继承实现object是Python的顶级类,创建类是会自动继承,就拥有object中的方法定义格式# 类的定义# 旧式类定义 一般在定义单个类时使用class 类名:pass​# 新式类定义 一般在继承时使用class 类名(指定需要继承的类):pass​​# 新式类定义class A():name = '张三'​# pass 不做处理pass# 旧式类class B:​age = 20​。

2024-06-03 19:45:19 774

原创 python基础——面向对象

程序开发时,有两种编程思想面向过程侧重点是过程按照一定的顺序步骤完成对某一特定问题的处理如何将大象放入冰箱中?1-打开冰箱门2-将大象放入冰箱3-关上冰箱门如何将老虎放入冰箱中?1-打开冰箱门2-将老虎放入冰箱3-关上冰箱门如何将狮子关在笼子中?1-打开笼子门2-将狮子赶入笼子中3-关上笼子门面向过程需要针对某一类问题需要重复编写代码面向对象侧重点在对象将一类问题进行归纳总结,按照一个统一标准处理同一类问题如何将一项物品放入一个空间内?物品是什么?和空间是什么?

2024-05-30 19:35:51 451

原创 python基础——函数

函数的介绍# 功能1def login(name_list,password_list): # 接受参数# 函数作用域# 通过四个空格,来确认函数所执行的逻辑从哪里开始name = input('请输入用户名:')password = input('请输入密码:')# 先判断用户名是否正确# 在判断密码是否正确print('登录成功')# 适应break关键,会结束循环,不再进行取值breakelse:print('密码不正确')else:print('用户名不正确')

2024-05-28 19:39:35 619

原创 python基础——容器

元组定义​# 元组只有一个元素数据时,需要加逗号data_tuple7 = ('张三',)# 字典定义# 字典中不要重复定义key值,保证key值唯一​# 使用key的下标值进行value部分取值​# 字典下标不支持切片操作# 集合的定义# data_set5 = {{'id':1,'name':'张三'},{'id':2,'name':'李四'}}有序的数据可以通过下标和for循环取值list[0]str[0]tuple[0]dict[key]

2024-05-27 19:41:20 683

原创 python基础——循环和容器

容器就是存放数据的python 中的容器数据有多种形式,每种形式有自己的存储格式, 数据存储特性不一样字符串 str 就是容器 存放一个一个字母 格式 : 单引号 '数据' ,双引号 "数据" ,三个引号 """ 数据 """列表 list 格式: [数据1,数据2,数据3.....]元祖 tuple 格式: (数据1,数据2,数据3,)集合 set 格式: {数据1,数据2,数据3,}字典 dict 格式: {key1:value1,key2:value....}数据存储的特性有序和无序。

2024-05-26 19:46:52 825

原创 python基础

print('我叫%s,年龄%d岁,体重%.2fkg'%(name,age,weight))print('我叫%s,年龄%d岁,体重%fkg'%(name,age,weight))print(f'我叫{name},年龄{age}岁,体重{weight:.3f}kg')print('什么东西天上飞,',end='') # end='' 指定不进行换行。print(f'我叫{name},年龄{age}岁,体重{weight}kg')data = str(data_int) # data变量接收 转化后的数据。

2024-05-24 19:41:54 478

原创 python基础之开发工具配置

Python是一个计算编程语言,可以实现计算程序开发,也可以用于数据处理。SQL语言只能用于结构化数据的处理。Python的比SQL应用更广泛。1990年推广Python,最初是应用于运维开发,随着不断更新迭代Python的功能更加丰富,在更多场景中进行使用。Python的特点简单易学Python的应用场景主要是使用Python各类模块进行相关功能开发网站Web开发Django,Flask,FastAPI等模块开发游戏Pygame模块(小游戏)人工智能NLP自然语言处理和CV视觉处理。

2024-05-23 20:23:39 425

原创 zookeeper介绍

ZooKeeper是一个具有高可用性的高性能分布式协调服务。官网。

2024-05-15 16:39:29 462

原创 数据仓库及设计

主题是对数据进行归类,每个分类是一个主题主题域根据分析的领域,将联系较为紧密的数据主题的集合在一起主题域下面可以有多个主题,主题还可以划分成更多的子主题,主题和主题之间的建设可能会有交叉现象。

2024-05-14 19:56:16 222

原创 HUE工具介绍使用

HUE是CDH提供一个hive和hdfs的操作工具,在hue中编写了hiveSQl也可以操作hdfs的文件hdfs的web访问端口hdfs://hadoop01:8020 hdfs的程序访问端口进入hue。

2024-05-13 19:42:05 224

原创 Datax数据采集

GitHub - WeiYe-Jing/datax-web: DataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。datax-web是基于datax进行的二次开发,提供了一个可视化web页面,方便开发人员定义datax任务,并且能自动生成json文件。

2024-05-11 20:12:13 1099

原创 Oracle基础6

- 参数: v_name in, v_addressid in, v_housenumber in, v_watermeter in, v_ownertypeid in。-- todo 需求2: 根据需求1创建存储函数 fn_calmoney(v_owner_type业主类型,v_usernum2用水量)-- todo 3 声明变量 v_year v_month v_area_id v_owner_id。call pro_owners_add('盘丝洞01',66,'66','66',66);

2024-05-08 21:54:49 307

原创 Oracle基础5

DBMS_OUTPUT.PUT_LINE('单价: ' || v_price || ', 吨数: ' || v_usenum2 || ', 应付金额: ' || v_money);DBMS_OUTPUT.PUT_LINE('单价:'||v_price||', 吨数:'||v_usenum2||', 应付金额:'||v_money);DBMS_OUTPUT.PUT_LINE('单价:'||v_price||', 吨数:'||v_usenum2||', 应付金额:'||v_money);

2024-05-06 17:41:12 838

原创 Oracle基础4

- 手动刷新 begin DBMS_MVIEW.REFRESH('view_test_', METHOD =>'f');-- 需求:查询地址 ID,地址名称和所属区域名称 t_address t_area。-- 向 t_address添加数据 (9,'龙旗2区',1,1) 查看是否同步数据。-- 需求:查询地址 ID,地址名称和所属区域名称 t_address t_area。-- 需求:查询地址 ID,地址名称和所属区域名称 t_address t_area。

2024-05-04 21:41:38 661

原创 Oracle基础3

9. 连续问题-连续3次为球队得分的球员名单。8. 组内比较问题-低于平均薪水的雇员。2.排名问题——去最大最小求平均值。3.排名问题——去最大最小求平均分。7. 组内比较文件-每组大于平均值。5.TOP-N-查询前二名工资。11. 连续问题-连续出现的数字。4.TOP-N-查询前三名成绩。10. 连续问题-连续空余座位。6.累计问题-员工的累计薪资。1.排名问题——成绩排名。

2024-04-29 21:49:19 213

原创 Oracle基础2

sum(case when T_ACCOUNT.MONTH in ('01', '02', '03') then MONEY end) 第一季度,sum(case when T_ACCOUNT.MONTH in ('04', '05', '06') then MONEY end) 第二季度,sum(case when T_ACCOUNT.MONTH in ('07', '08', '09') then MONEY end) 第三季度。-- union(并集) ,返回各个查询的所有记录 ,不包括重复记录。

2024-04-26 21:43:47 564

原创 Oracle基础1

【代码】Oracle基础练习。

2024-04-25 21:26:19 169

原创 ORACLE 环境配置

数据库的数据是存储在表空间中的,真正是在某一个或者多个数据文件中。而一个表空间可以由一个或多个数据文件组成,一个数据文件只能属于一个表空间。其实 Oracle 数据库的概念和其它数据库不一样,这里的数据库是一个操作系统只有一个库。由于 oracle 的数据库不是普通的概念,oracle 是有用户和表空间对数据进行 管理和存放的。注:表的数据,是有用户放入某一个表空间的,而这个表空间会随机把这些表数据放到一个或者多个数据文件中。的用户与 MYSQL 的数据库类似,每建立一个应用需要创建一个用户。

2024-04-24 21:58:52 339

原创 MapReduce、Yarn、数据仓库

分布式计算框架需要编写代码执行,执行时会数据所在服务器上运行相同的计算代码计算过程分为map 和reduce过程map对多份数据进行拆分计算reduce将分开的map结果合并一起计算map的计算程序数量由文件块个数据决定,每个map计算一个块的数据reduce的个数默认是一个;在进行数据拆分存储时,reduce个数由分区数和分桶数决定map将数据传递给reduce过程称为shuffle过程包含 分区,排序,合并Map阶段1-按照块数量进行split的块数据读取。

2024-04-23 17:52:02 929

原创 HDFS分布式文件存储系统

按块(block)存储hdfs在对文件数据进行存储时,默认是按照128M(包含)大小进行文件数据拆分,将不同拆分的块数据存储在不同datanode服务器上拆分后的块数据会被分别存储在不同的服务器上副本机制为了保证hdfs的数据的安全性,避免数据的丢失,hdfs对每个块数据进行备份,默认情况下块数据会存储3份,叫做3副本副本块是存在不同的服务器上默认存储策略由类支持。也就是日常生活中提到最经典的3副本策略。

2024-04-22 21:56:52 1425

原创 Hive基础5

VALUES (1009, '曾阿牛', '董事长', NULL, '2001-11-17', 50000, NULL, 10);VALUES (1004, '刘备', '经理', 1009, '2001-04-02', 29750, NULL, 20);VALUES (1006, '关羽', '经理', 1009, '2001-05-01', 28500, NULL, 30);VALUES (1012, '程普', '文员', 1006, '2001-12-03', 9500, NULL, 30);

2024-04-21 21:52:59 1043 1

原创 Hive基础4

内置函数时hive中自带的函数方法,用来对不同类型的字段数据进行操作字符串,数值,条件判断字符串方法lengthconcatconcat_wssubstrsplitround()ceil()floor()if()​casewhen 条件1 then 结果when 条件2 then 结果when 条件3 then 结果else前面条件都不成返回的结果end 字段名称-- 查看hive中的所有内置函数-- 查看函数的具体用户。

2024-04-19 21:56:24 572 1

原创 Hive基础3

可以使用自定义序列化器中提供jar包完成对json数据的处理可以将json文件中的数据key最为字段,将value值解析为对应的行数据uid string-- 指定三方的序列化器 解析json文件。

2024-04-19 21:11:06 1066 2

原创 Hive基础2

insert into tb_test values(2000,20,13711111111,'张三','男',1800.21,'2020-10-01 10:10:10',array('篮球','足球'),map('关羽',80,'小乔',60));insert into tb_test values(1,20,13711111111,'张三','男',180.21,'2020-10-01 10:10:10',array('篮球','足球'),map('关羽',80,'小乔',60));

2024-04-17 21:39:58 747

原创 Hive基础

Hive是一个SQL转化转化工具,将SQL的计算转为MapReduce的计算,让开发人员更加方便进行大数据开发。如果使用多个客户端进行访问,就需要有多个Hiveserver服务,此时会启动多个Metastore。hiveserver2的启动时间会比较长,可以通过端口查看确认hiveserver2是否真的启动。在hive中表的元数据和行数据由metastore和hdfs共同管理。1、元数据使用外置的RDBMS,常见使用最多的是MySQL。1、元数据使用外置的RDBMS,常见使用最多的是MySQL。

2024-04-14 21:36:45 844 1

原创 Hive基础

Hive是一个SQL转化转化工具,将SQL的计算转为MapReduce的计算,让开发人员更加方便进行大数据开发。如果使用多个客户端进行访问,就需要有多个Hiveserver服务,此时会启动多个Metastore。2、不需要单独配置metastore 也不需要单独启动metastore服务。2、不需要单独配置metastore 也不需要单独启动metastore服务。1、元数据使用外置的RDBMS,常见使用最多的是MySQL。1、元数据使用外置的RDBMS,常见使用最多的是MySQL。

2024-04-12 21:49:25 487

原创 Hadoop基础——MapReduce & YARN

hadoop中yarn集群可以和hdfs集群在同一台服务器中,一般Hadoop服务部署时,hdfs和yarn逻辑上分离,物理上在一起.yarn分配的是内存和cpu资源, 从而运行MapReduce计算任务,而该计算任务需要获取计算数据,计算数据存放在hdfs上,所以他们物理上在一起后数据传输速度快.服务器: 硬件层面的概念,一个服务器可以提供给我们相应的内存,cpu,磁盘资源等,但是服务器必须有操作系统,一般是linux系统.修改完node1上的配置文件后,需要远程发送到node2和node3中。

2024-04-10 21:39:29 532 1

原创 Hadoop基础——HDFS的基础和部署

HDFS分布式文件存储系统: 负责海量数据的存储工作MapReduce分布式计算框架: 负责海量数据的计算工作Yarn分布式资源调度工具: 负责分布式集群的资源调度工作。

2024-04-07 21:52:05 982 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除