自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 数据可视化_EChat

如何获取echartApache ECharts实例化1主要核心文件是这三个将这三个文件放入webstorm 的 js文件夹中按照官网文档的实例创建一个html,将body 的内容全部替换引入js文件<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title>...

2021-12-15 01:05:00 4911

原创 可视化概述

数据可视化六部曲echarts 国内百度公司出的开源数据可视化工具。pyecharts用python 更好的配合echartsbokeh、plotly等一切着一些都离不开词云powerBi 不需要代码的可视化数据可视化定义数据用图表展示出来为什么要进行可视化简单来说就是,图胜于表,一表胜千言实时更新:新型冠状病毒肺炎疫情地图数据可视化开发工具可视化工具表现形式看板大屏:(少交互)驾驶舱 (多交互),受众群体公司...

2021-12-15 00:36:52 538

原创 数据产品_运筹帷幄_指标业务分析与应用

本章内容1.产品思维与数据驱动2.指标分析实例Facebook致胜关键(北极星指标) 超级流量入口-淘宝首页如何运营3.指标应用方案指标智能预警指标智能归因case:如何判断男/女朋友是否爱你?恋人指标体系这帮产品真会玩儿。。。。产品思维与数据驱动想搭建一个成功的指标体系,需要你站的够高……这就是如果一直在拉车,很少能注意到前方路的问题。一下产品思维的结晶。what is the people problem?用路人能听懂语言讲清楚你要做的事情。如果..

2021-10-16 14:15:02 213

原创 数据产品_项目管理_数据产品在项目中的具体角色

本章内容项目管理基础知识、方法论项目管理基础步骤项目管理四个阶段五个步骤识别需求阶段需求方:数据产品需求方,通常是三大需求方,运营(数据驱动运营、拉新、转化、推广);产品经理(活跃程度、功能情况,关心前端用户流量行为 uv、pv);分析师(运营下面的小的分支);销售(订单销售等基本数据)等等等等。需求点转化-->需求面行成平台功能例如订单数据 运营也在要,分析师也在要,销售也在要。可以规划订单查询功能,组织形式可以是可视化看板、报表、自助式查询。不同类型的规划给他提

2021-10-02 12:41:21 361

原创 数据产品_数据中台01_ABTest流程与应用

本章主题目标什么是ABTestABTest背景双盲测试:出题人和做题人都不知道正在被测试。好处不会受到很多外界客观因素的干扰。Optimize360谷歌ABTest 的产品。ABTest定义特定用户群 --->不同版本--->反应。用小流量 验证整体。例如ABC三个版本,分别给三个版本分配流量,观察核心指标,比如点击率用户转化率等。确定结果不是由随机误差导致的-->最优版本AB Test 应用数据能让我们看到认知之外的事情。...

2021-09-22 23:06:56 958

原创 数据产品_数据中台07_数据资产管理及服务

任务|表|字段数据资产很核心的就是对任务、表、字段做管理以及服务首先我们要标记出来核心资产。最核心的数仓中间层所涉及到的表,这些表、字段、任务(任务中包含很多加工逻辑,这里面包含了很多业务知识,业务策略)都是公共的公用的,对整个业务都有很大作用的。比如说以下很多核心字段。任务:关键节点,比如当这个任务挂了,下游很多都会受到影响。核心业务逻辑:任务之所以把它列为核心资产也是因为任务中包含很多逻辑,这些逻辑隐含了很多知识,如果丢失了会造成很多问题。标记的方式自动识别:可以通过数据

2021-09-21 14:21:38 315

原创 数据产品_数据中台06_数据沼泽边资产(数据资产)

本章主要内容什么是数据资产数据资产及应用数据资产管理及服务本节目标了解什么是数据资产以及应用熟悉数仓的指标模型熟悉标签的构成了解数据资产管理与服务的方式什么是数据资产数据是一种能源数据是一种能源,不单单是客观存在,发挥了额外价值,能够给业务场景实际带来收益,源源不断供给的一种能源。数据价值的核心体现就是行成数据资产。数据资产数据的价值可以通过数据应用的收益体现。业务收益:个性化推荐、千人千面、算法评级、定向广告,实际提升的业务收益。提效降..

2021-09-19 13:29:52 418

原创 数据产品_数据中台05_数据湖以及数据湖应用场景

数据湖最大的特点:数据湖都是实时数据为主。数仓主要都是离线的T+1的形式。数据湖是异构多存储的。会涉及到各个业务系统直接接入就可以,各个异构不同存储的数据库,不需要做兼容,内部逻辑都处理好。上游ML 和分析最早提出数据湖概念:AWS与数仓相比最核心的特点:...

2021-09-17 14:21:55 372

原创 数据产品_数据中台04_数仓产品体系

数仓和数据库的关系hadoop生态环境回归到数仓 和数据库数仓不管是数仓模型还是数仓理论其实是数据分类管理的方法论。对数据划分管理的方法论。是建立在hadoop之上的,hadoop是数仓的底层技术实现。数据库数据存储介质。数据仓库的一定要建立在基于Hadoop的技术架构上吗?只要是能存储数据的介质都可以。数仓作用场景数仓的核心作用 冗余数据 和 降低数据冗余,看似很矛盾实际站在不同角度。冗余数据(站在中间层的角度)核心是快速使用:比如小明分析的过.

2021-09-15 19:22:01 294

原创 数据产品_数据中台03_数据质量管理

本章主要内容数据质量管理数据仓库与数据库的关系数仓的产品体系拓展-DataLake本章主要目标了解数据质量管理及其相关知识点了解数据仓库与数据库的关系与差异了解数据仓库的核心作用掌握与数仓相关的数据产品了解数据湖以及数仓的发展趋势本章主要主题在上一篇文章我们提到过,本章主要是从实际场景的角度解决这两块的内容,以及数据质量管理:数仓模型层级如何划分 ODS DWD DWS ADM数仓架构:数据源->数据计算->数据应用,贯穿始终的调度、监控、met

2021-09-14 16:55:53 397

原创 数据产品_数据中台02_数仓模型和架构

名词解释一些必须掌握的专有名词基础层-ODS(Operational Data Store-操作型数据存储)未经过加工处理的原始数据:记录事实的唯一版本,业务系统产生的原始数据,原封不动的同步到数仓。中间层-CDM\EDW(Enterprise Data Warehouse-企业级数据仓库,Common Data Model,公共维度模型层)数仓核心意义,在中间层进行加工整合。数据域:数据管理和数据整合的数据抽象集合。数据域相对稳定,主要用于中间层建设。• dwd-明细整..

2021-09-13 15:28:00 942 1

原创 数据产品_数据中台01_什么是数仓

本章主要内容数据仓库以及相关概念、数仓模型及架构、数据链路及服务目标:1.了解数据仓库的概念,作用和特点2.*掌握OLAP和DataCube的应用3.*掌握数仓模型、架构以及工作方式4.了解数仓在数据中台中的作用数据仓库数据简史OLTP(在线线上的实时系统) 诞生产生了很多应用场景--->数据量变大--->支撑不了那么大数据量的运算、而且会影响业务的正常运行把数据同步到--->数据仓库--->专门用来分析业务。(记录事实,事实的唯一版.

2021-09-10 19:29:28 198

原创 Java_面向对象04:继承

什么是继承一种类与类之间的关系根据不同类之间共有的东西抽取出来放到父类中猫和狗可以继承父类中开放的所有属性和方法,这样在编写猫和狗的类的时候只需要编写他们特有的东西。新增别的动物类复用。继承具有什么特点使用已存在的类的定义作为基础建立新类。新类的定义可以增加新的数据或者新的功能,也可以用父类的功能,但不能选择性地继承父类。不能选择性的意思是,子类一旦继承父类,它将获得父类一切开放的特征,没有选择余地。满足“A is a B”的关系就可以行成继承关系。继...

2021-09-07 18:21:45 93

原创 Java_面向对象03:综合案例学生信息管理

模拟实现场景:场景分析1.考虑都有哪些对象每个对象都有对应的特征2.考虑这些对象都从属哪些类中分别由这两个类实例化出来四个对象编写测试subject类创建类—>创建类属性—>创建getset 方法—>创建无参 和 带参构造器—>测试代码一键格式化,ctrl shift Fpackage com.immoc.model;/** * 专业类 * @auther:dongdong */public class S...

2021-09-06 14:06:54 303

原创 Java_面向对象02:封装

什么是封装将类的某些信息隐藏在类内部,不允许外部程序直接访问。通过该类提供的特定的方法来实现对隐藏信息的操作和访问。简单来说隐藏对象的信息同时流出访问的接口就好比一个atm机器,你看不见有多少钱,实现了钱这个重要信息的隐藏。同时预留了插卡口、操作屏、取钞口。使用的时候不用在意取钞机钱存在哪,以什么方式存的钱。既保证了钞票的安全性,又实现了功能性。特点:只能通过规定方法访问重要数据隐藏类的实例细节方便修改和实现java 实现封装修改属性的可见性,只能类内被访问,出了

2021-09-04 03:58:05 248

原创 Java_面向对象01_初始面向对象_20210902

类和对象对象:万物皆对象,现实当中存在的东西皆是对象。真正看的到摸得着的具体实体,真正干活的也是对象。类:模型,确定对象将会拥有的特征(属性)和行为(方法),一种概念,一种模型。--对象是类的实例化表现--类是对象的类型--对象是特定类型的数据。先定义类---->通过类,实例化对象属性和方法属性:对象拥有的各种静态特征。方法:对象具有的各种动态行为创建类和实例化对象创建类众所周知java面向对象编程的大概思路是:根据需求-->创建类--->.

2021-09-02 21:20:22 75

原创 MySql(三)库表操作语句,增删改

数据库设计三范式:对数据库设计的一些规范,不是规定(Normal Form)目前已经提出的共有6种,一般使用的是三范式。第一范式:第二范式:第三范式

2021-08-17 22:21:49 84

原创 MySql(二)联表查询、子查询、窗口函数

联表查询UNION-纵向连接Union all 的话就是全保留,Distinct的话就是去重

2021-08-15 18:39:24 372

原创 MySQL基本函数和操作 - 2021-08-11

我使用的数据1001 钱多多 总裁 2009-11-17 100000 0 101003 张伟 职员 1021 2010-12-17 8000 500 201004 王伟 销售员 1013 2011-02-20 6000 1000 301006 王芳 销售员 1013 2011-02-22 6000 500 301010 ...

2021-08-12 13:53:56 152

原创 MySQL基本操作(2021/08/11)

起源先说说起源,不同公司开发的RDBMS不同,SQL操作RDBMS的一种语言。主要分类DQL:数据查询语句,如selectDML:数据操作语句,对数据增删改查 insert update deleteDDL :库表管理,create,drop特点不区分大小写书写格式顺序SELECT FROM WHERE GROUP BY HAVING ORDER BY LIMITmysql的一些基本操作命令行进入mysqlmysql -h主机i...

2021-08-11 15:23:04 61

原创 python基础文件读写

读写txtimport os# 返回当前目录os.getcwd()f = open('test.txt','w')f.write('life is short,you need python')# 没有close都是在内存里,close之后保存了f.close()对于open函数常用的打开方式# 默认是rf = open('test.txt')f.read()dir(f)#使用with可以不用f.close()就保存with open('test.txt','a'

2021-08-10 17:14:46 69

原创 python基础模块和模块使用(2021/08/10)

未完待续

2021-08-10 14:30:31 51

原创 python基础类(2021/08/09)

实例-体现面向对象以面向对象的角度,编写一个程序。判断学生是否完成作业,如果完成就表扬,否则进行批评class Student: def __init__(self,name,grade,subject): self.name = name self.grade = grade self.subject = subject def do_homework(self,time): if self.grade &gt...

2021-08-09 23:15:04 274

原创 python基础练习-方法(2021/08/08)

1.假设有字典d={'a':39,'b':40,'c':99,'d':100}对这个字典进行查询。传入不定个数个参数。def find_dic(dct,**kwargs): r = {k:v for k,v in kwargs.items() if dct.get(k)==v} for k,v in kwargs.items(): print(k,v) return rd={'a':39,'b':40,'c':99,'d':100}find_result

2021-08-08 17:22:57 164

原创 python基础练习-列表、字典、循环(2021/08/07)

1.输入一个值,计算以这个值为半径⚪的面积import mathr = float(input('输入圆的半径:'))area = math.pi*r*rprint(round(area,2))2.输入一个大小写的单词,将大写的字母全部转化成小写,将小写的字母全部转化成大写。word = input()new_lst = []for i in word: if i.islower(): new_lst.append(i.upper()) els

2021-08-08 02:08:06 363

原创 RMF模型评分制计算方法(2021/08/04)

在之前的文章中用均值的方法对用户RMF模型进行了分析,https://blog.csdn.net/andakiwukawa/article/details/119142435上篇文章中写道:RFM是常用的对用户分析的手法,RFM模型的形式有均值、评分、对应算法,以下就是使用评分制的方法,对用户RMF模型评估。采用均值分析的方法的思路总结如下:1.获取相应数据-数据清洗2.将CustomerID作为行索引3.添加orders字段用于统计合计4.计算出OrderData,orders

2021-08-04 20:57:34 1208

原创 电商销售数据分析(2021/07/27)

如题,本次案例分析某电商平台的销售数据。本次案例的特点是,数据量比较大,原始数据存在比较多的问题,所以数据处理的过程比较典型。还是按照原先的数据分析流程,概览数据-->数据处理-->数据分析概览数据概览数据重点关注,数据的标识问题,了解数据字段,大概观察下数据的问题。1.数据的标识有订单标识和row_id,订单标识有重复的问题,业务原因是一个订单买了三件商品,数据就给展开了。其中row_id是数据的唯一标识。2.数据字段主要描述国际贸易的电商交易,其字段含义。。。..

2021-07-27 22:00:26 4050 2

原创 DolphinScheduler集群部署

一、环境要求1.硬件环境硬件环境包括:系统、硬件、端口号系统要求硬件要求,只是推荐配置,没有那么强也可以。端口号要求。如果说在部署的过程中,某个节点起不来,查看日志,抛异常说端口号被占用,用ps或者net 查看端口号使用进程是否被占用。2.软件要求软件环境包括: mysql、jdk、zookeeper、hadoopCDH5.12.0jdk1.8mysql5.7zookeeper-3.4.5-cdh5.12.0二、部署过程1.下载编译好的bin..

2021-07-26 13:32:44 972

原创 电影分析案例-分析导演、演员拍电影盈利和票房(2021/07/25)

次案例主要是对数据计算的应用。如题,数据还是move数据,计算利润 profit 是用 gross 减去 budget。导入数据,计算profitdf = pd.read_csv('movie_metadata.csv', usecols=[0,1,2,3,4,5,6,7,8,9,10,11,13,15,27])data=df.dropna(how='any')data#%%data['profit']=data['gross'] - data['bu

2021-07-25 23:37:32 1177

原创 电影分析案例-电影时长直方图(2021/07/25)

如题,我们要分析电影时间长短的分布情况,绘制直方图展示。这张图的思路比较特殊,可以作为一个例子。还是使用之前的数据,读取并清洗数据。import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf = pd.read_csv('movie_metadata.csv', usecols=[0,1,2,3,4,5,6,7,8,9,10,11,13,15,27])data=df.dr

2021-07-25 22:41:57 1054

原创 对电影时间维度分析的案例-历年电影发展趋势(2021/07/23)

本篇笔记涉及到的知识内容:1.数据分析的大概过程、2.处理数据方法的积累一、数据分析的大概过程1.在拿到一个数据分析需求开始做之前,我们首先要了解数据字段。2.读取数据--->清洗数据---->数据分析通过下面的实例展示是怎样的一个大概过程。首先,了解数据字段:通过概览数据了解数据的字段含义,以及字段格式。一、读取数据,并对数据的大概情况进行一个检查。import pandas as pdimport numpy as npimport matplotl

2021-07-25 21:31:41 637

原创 对电影题材分析的案例-电影类型与电影利润之间的关系(2021/07/24)

for i,row_data in data.iterrows(): print(i) print(row_data) print('*'*20)如题,分析内容是电影题材和电影利润之间的关系。其中电影题材的数据格式比较特殊,那么就用这个案例体现怎么处理此类数据格式。从数据中看,每个电影对应好几种题材(genres)。那么,我们的大概思路是,将数据处理成(一个电影对应)一个题材,对应一个利润。话不多说我们先放代码import pandas as pdi.

2021-07-24 22:05:15 650

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除