自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

转载 hive中如何将存在分隔符号的一列进行拆分,成为多行(可参考之前行转列,列转行笔记第三部分)

hive中如何将存在分隔符号的一列进行拆分,成为多行

2022-11-19 10:30:45 2901 1

原创 mysql中如何将存在分隔符号的一列进行拆分,成为多行

mysql中如何将存在分隔符的一列,进行分割后,转变成多行

2022-11-19 10:21:01 5680

原创 xmind相关快捷键

平常整理思维导图使用鼠标点击太费力了,看了下键盘快捷键,记一笔

2021-06-28 16:07:21 226

原创 sql小题笔记--寻找用户推荐人(注意null值的判断)

寻找用户推荐人给定表 customer ,里面保存了所有客户信息和他们的推荐人。+------+------+-----------+| id | name | referee_id|+------+------+-----------+| 1 | Will | NULL || 2 | Jane | NULL || 3 | Alex | 2 || 4 | Bill | NULL || 5 | Zack |

2021-05-12 09:21:09 369

原创 sql练习题--给定数字的频率查询中位数

Numbers 表保存数字的值及其频率。+----------+-------------+| Number | Frequency |+----------+-------------|| 0 | 7 || 1 | 1 || 2 | 3 || 3 | 1 |+----------+-------------+在此表中,数字为 0, 0, 0,

2021-05-10 09:42:07 227

原创 sql中null值对avg、count函数的影响

一、AVG()求平均值注意AVE()忽略NULL值,而不是将其作为“0”参与计算,如果需要计算真实平均值 可以先将null值替换为0,比如avg(event_date is not null)二、COUNT()两种用法1、COUNT(*)对表中行数进行计数不管是否有NULL2、COUNT(字段名)对特定列有数据的行进行计数忽略NULL值三、MAX()、MIN()求最大、最小值都忽略NULL...

2021-05-08 11:32:07 1016

转载 SQL左连接中的on and和on where的区别

转载,原文链接:http://blog.csdn.net/xingzhemoluo/article/details/39677891SQL左右连接中的on and和on where的区别在使用left join时,on and和on where条件的区别如下:1、on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录(涉及右表的会直接过滤掉,涉及左右表之间的条件过滤完之后,不符合的左表的记录都会返回同时右表置空)。2、where条件是在临时表生成好后,再对临时表进行过

2021-05-08 11:20:34 2828

原创 回归分析相关知识整理(xmind)

2021-04-23 16:08:23 116

原创 描述性统计分析基础知识整理(xmind)

2021-04-23 16:05:47 252 2

原创 业务目标拆解

1.业务目标制定遵循SMART原则:——S代表具体(Specific),指绩效考核要切中特定的工作指标,不能笼统;——M代表可度量(Measurable),指绩效指标是数量化或者行为化的,验证这些绩效指标的数据或者信息是可以获得的;——A代表可实现(Attainable),指绩效指标在付出努力的情况下可以实现,避免设立过高或过低的目标;——R代表相关性(Relevant),指绩效指标是与工作的其它目标是相关联的;绩效指标是与本职工作相关联的;——T代表有时限(Time-bound),注重完成绩效指

2021-03-23 17:23:22 1437

原创 如何进行用户留存分析

1.用户增长模型AARRR模型(aha时刻(啊哈))2.留存的价值●判断产品是否达到PMF (产品满足市场需求)●大力宣传推广前的基础●提升拉新效果●延长用户生命周期,最大限度的产生价值●体现用户忠诚度●推荐其他新用户3.留存监控用户规模=新增用户+老用户留存留存率=在观察期重复使用产品的用户规模/指定用户规模4.留存数据输出(制式)举例:首先,假设要计算7天内,每天登录APP的留存率。1)记录每天登录APP的用户数。2)追踪这些用户在接下来的每一 天里继续登录APP的数量

2021-03-22 16:54:25 2372

原创 用户分析

一、目的与价值用户分析的本质就是对用户进行分类。用户生命周期:(拉新、促活留存、转化、推荐)引入期—成长期—成熟期—休眠期—流失期二、如何进行分析①用户结构分析一般包含以下几方面:1.社会属性:年龄,性别,地域,学历,家庭状况,婚姻,子女等等。2.商业属性:财富等级,消费档次,信用等等。3.心理属性:价格敏感性、偏好属性等等。4.行为属性:游览频次,浏览品类、浏览价格带、下单频次、下单品类、 下单价格带等等。5.价值属性: ADR贡献等的行为总结(ADR指标又叫涨跌比率指标或上升下降比

2021-03-18 16:42:35 9199

原创 流量分析

一、流量分析的价值业务上:1.清晰了解流量来源以及各来源的质量。2.清晰了解流量在产品内部的运行轨迹和路径,从而优化产品结构。3.清晰了解在用户路径的每个节点上,流量转化和损耗情况,从而找出问题点进行优化。4.清晰了解运营活动中,如何设计运营活动页、广告投放页等页面,能更好的承接流量和转化,提高ROI。技术上︰1.发现底层服务上的BUG,降低服务崩溃导致的损失。2.改进资源部署网络,合理分配软硬件资源。总的来说,流量分析主要是让我们知道,用户是从什么渠道到达产品的,在产品内部是如何流转的,

2021-03-17 11:08:31 7214

原创 产品功能分析

一、基础①明确目标②熟悉流程与功能1.将产品的所有功能体验一遍并按照浏览路径绘制产品结构图,了解业务如何在产品中运转以及各功能模块间的运转路径。如某找房app的一小部分结构图如下:2.思考各个模块用户价值(帮助用户解决什么问题?为用户提供什么价值?)3.了解各个模块商业价值【 广告计费名词解析:CPA: Cost Per Activity(Action) 直译为每动作成本,由广告所带来的用户产生的每次特定行为的费用,即根据每个访问者对网络广告所采取的行动收费的定价模式。CPS: Co

2021-03-17 11:03:16 3217

原创 节假日复盘分析

一、基本概念团队复盘,我们需要考虑两个方面: (1)我们的既定目标是否达成?(2)**达成/未达成的原因是什么?**运营活动策略有问题?组织保障有问题?还是其他方面的问题?复盘目的:复盘会议参加人员:项目相关人员都要参加,面向受众除了面向管理层和各个业务单元负责人外,还需要面向在项目中的参与其中的协作对象,比如产品侧同事、运营侧同事、研发侧同事,…复盘时间原则:①小事及时复盘②大事阶段性复盘③项目结束后全面复盘二、节假日复盘分析节假日**活动全流程**:节假日复盘分析的特点:

2021-03-11 17:53:02 640

原创 如何搭建经营分析看板

一、基本概念目的:了解现状 ——>剖析原因——>预测未来汇报对象:MM层(管理层)要求:1.内容:结果分析、变化趋势、异常拐点分析;2.频次要求:周/月维度为主(会引发出不同的专题分析,如用户增长等)二、怎么写?(以解决公司实际问题为目的)整体结构(五步走):明确目标,设定分析方案,数据获取/处理/分析,得出业务结论,写报告。常规报告:背景(为啥要做这个报告)——》分析范围(分析谁)、分析方法(用啥方法)——》数据展示、重点解析、收益预测——》结论推导、策略建议(接下来

2021-03-11 14:13:20 1769

原创 excel图形二(雷达图、瀑布图&甘特图、旭日图、树状图、组合图)与动态图

1、雷达图中想加入蜘蛛网类似的线,可先把图改成折线图,然后选中纵坐标轴,在填充与线条选项下将线条更改为实线,然后可设置颜色,然后再将图表更改成雷达图(效果如左图到右图);2、雷达图中选择填充图,选中填充区域后,在填充与线条选项下,将线条改为实线,将标记中的填充改为无填充,即可将外层更改为实线,效果如下图;3、对于瀑布图,若想将应发工资等设为合计,可以选中单个柱条,在系列选项中勾选设置为汇总,即可出现右图灰色柱条,若想将加项与减项以更直观的方式显示出来,可以辅助插入两个图形,将需要的图形先复制,选中需

2021-02-25 16:20:14 3708

原创 excel基础图形笔记(柱状图、条形图、折线图、饼图、散点图、箱线图、漏斗图)

excel画图小记:1、 高:10 ;宽:16.17;(符合0.618黄金比例)具体操作:选中图表->右键->设置图标区域格式->大小与属性;2、看销量排名,一般用条形图(横放的柱状图),将X轴放到下面(选中x轴,标签位置选择高),y轴逆序排列(选中y轴->坐标轴选项->逆序类别);3、堆积条形图一般最好不要超过5个类别;4、折线图横轴为时间,可添加趋势线;5、百分比面积图如要添加最后的占比标签,可将图形先更改为折线图,添加标签完成后,再更改图形为百分比面积图;

2021-02-23 19:37:15 2875

原创 sql小题笔记

题目一:查询“6”课程比“2”课程成绩高的所有学生的学号。-- 建表:CREATE TABLE `sc` ( `Sid` int(20) DEFAULT NULL, `Cid` int(20) DEFAULT NULL, `score` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL);-- 插入记录:INSERT INTO `sc` VALUES ('1', '2', '80');INSERT INTO `sc` VALUES ('2

2021-02-06 14:34:01 101

原创 hivesql常用优化技巧

一、列裁剪与分区裁剪1.列裁剪(只查询需要的字段,千万不要直接写 select * from)列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时,如果select所有的列或者不指定分区,导致的全列扫描和全表扫描效率都很低。2.分区裁剪(有分区条件的一定要加上分区条件【如:dt...】)分区裁剪就是在查询时只读需要的分区。二、排序技巧–distribute by 与sort by 配合使用代替 order byorder by:将结果按某个字段全局排序,导致所有map端数据都进入一个r

2021-02-02 17:53:15 2015

原创 列转行,行转列(hivesql)

一、笛卡尔积笛卡尔积即交叉连接,返回结果的行数等于两个表行数的乘积。笛卡尔积会出现的可能情况:1.省略连接条件2.连接条件无效3.所有表中的所有数据互相连接二、列转行concat_ws():concat_ws (separator,字符串A/字段名A,字符串B/字段名B…)是concat的特殊形式,第一个参数是其他参数的分隔符,分隔符会放到连接的字符串之间,分隔符可以是一个字符串,也可以是其他参数.如果分隔符为NULL,则结果为NULL,函数会忽略任何分隔符参数后的 NULL值。但是conc

2021-02-01 16:04:38 1885

原创 正则表达式

概念正则表达式( Regular expression)是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子。总结: 正则表达式就是记录文本规则的代码,并不是哪门编程语言的特有的,它的语法可以用在多门语言中进行文字匹配。比如: 我们要从一段文字中匹配出电话号,我们可以用\d表示一个数字,11位的电话号用正则表达式为:\d{11}。参考链接https://docs.python.org/zh-cn/3/library/re.html?highlight=re#module

2021-01-28 17:52:32 119

原创 hivesql--窗口函数

hivesql–窗口函数xmind获取地址:https://pan.baidu.com/s/15hegE_7LpWfKLrOVDBIs1w提取码:skux

2021-01-28 11:44:57 170

原创 利用pymysql库连接python

python连接mysql 0115pymysql

2021-01-24 20:30:57 104 2

原创 hivesql 执行顺序与常用函数、表连接、coalesce函数

xmind获取链接:https://pan.baidu.com/s/1IppOx-eu17i3mIvYaqZnsA提取码:iasu

2021-01-22 17:01:04 216

原创 hive数据类型 、常用Linux命令

数据类型TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARYTIMESTAMPDECIMALCHARVARCHARDATEhive语言手册官网链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL⒉常用的Linux命令cd:切换目录,进入到某个目录cd /etc/表示进入/etc这个目录中2. cd …/表示返回上一级目录cd进入

2021-01-20 21:27:55 108

原创 sql阶段之案例小记

数据:https://pan.baidu.com/s/15pV-S5vTVQrmoq5zmXDTyw提取码:v9yp1、首先通过jupyternotebook做下简单处理,并将数据做新的保存import pandas as pd #读取数据data=pd.read_excel(r'C:/Users/Administrator/Downloads/20210115数据.xls')#查看数据信息data.info()#将空的那几行数据暴力删除算了,并在原数据上进行修改data.dropna(h

2021-01-16 16:34:36 104

原创 mysql 部分函数笔记、SELECT语句解析顺序

count相关注意点count(列名) 返回某列的行数(不包括NULL值)count(*) 返回被选行数时间相关函数SELECT NOW(), #返回当前日期和时间DATE(now()), #日期格式MONTH(NOW()), #月份YEAR(NOW()),#年份DATE_FORMAT(NOW(),'%Y-%m-%d'),#年月日格式DATE_FORMAT(NOW(),'%Y-%m'),#年月格式 大写为英文,小写为汉字DATE_ADD(NOW(),INTERVAL 1

2021-01-14 10:51:30 85

原创 sql 相关 xmind

1、sql不区分大小写,一般关键字大写,表名\列名小写;2、count(列名) 返回某列的行数(不包括NULL值)count(*) 返回被选行数3、时间相关函数SELECT NOW(), #返回当前日期和时间DATE(now()), #日期格式MONTH(NOW()), #月份YEAR(NOW()),#年份DATE_FORMAT(NOW(),'%Y-%m-%d'),#年月日格式DATE_FORMAT(NOW(),'%Y-%m'),#年月格式 大写为英文,小写为汉字DAT

2021-01-10 11:28:14 182 2

原创 python案例分析之电商销售数据分析

电商销售数据分析:待更新

2021-01-07 09:50:31 3849 4

原创 python案例之电影数据分析

练习数据:https://pan.baidu.com/s/1hf-J5XZCKSI329qIGWxChw提取码:tckkimport pandas as pd#读取文件df=pd.read_csv('./movie_metadata.csv')########## 浏览大概数据 ############ 查看行列数# print(df.shape)# 查看非空数量# df.count()# 查看每列空值合计# df.isna().sum()# 查看最小值、最大值、四分位等

2021-01-02 13:57:52 3644 3

原创 空值处理、去重、无穷大(inf)的处理、分组聚合agg、map/apply/applymap、匿名函数(lambda)、透视表、where/mask

1、空值处理student_excel.xlsx如图:import pandas as pd#表头为第三行(索引为2)df1=pd.read_excel(r'C:\Users\9250\Downloads\20201228课后资料\20201228课后资料\student_excel.xlsx',header=2)print(df1)print('*'*20)# 判断每一列中是否包含Nan# df.isnull().any()# df.isnull().all() # 是否全是空值

2020-12-30 14:15:35 1044 2

原创 pandas碎片笔记(二)【查询、筛选、删除、拼接】

1、筛选符合条件的记录#导入包import pandas as pd#读取文件df=pd.read_csv(r'C:\Users\Administrator\20201225课后资料\20201225课后资料\BJ_tianqi-F.csv')#按照两列排序,按照最高温度升序、最低温度降序排列#df.sort_values(by=['最高温度','最低温度'],ascending=['True','False'])#先将最高温度的符号去掉df.loc[:,'最高温度']=df['最高温

2020-12-28 15:32:57 354 4

原创 pandas 碎片笔记(一)

小题练习一创建Series对象,定义索引为abcde,打印索引与内容;import pandasfrom pandas import Series,DataFramesel=Series(data=[1,2,3,4,5],index=list('abcde'))print(sel)print(sel.index)print(sel.values)小题练习二创建一个DataFrame。name为张三、李四、王五、赵六;age为18,20,56,33;national为山西、北京、吉林、山

2020-12-25 11:33:54 157 3

原创 numpy碎片笔记(创建数组、调整数组形状、数组转换成list、数组的切片、条件取值、按轴计算、数组的计算、nan值的相关处理),用均值填充空值

numpy参考文档:https://www.numpy.org.cn/reference/# 1. 创建一维数组import numpy as nplist1 = [1,2,3,4] oneArray = np.array(list1)print(type(oneArray)) #numpy.ndarrayprint(oneArray) # [1 2 3 4] print(oneArray.shape) # (4,)print('*'*16)t2 = np.array(r

2020-12-23 14:57:10 240

原创 使用matplotlib画图

matplotlib 库1、官方文档:https://matplotlib.org/2、使用 matplotlib 画基础图形import mathxs=list(range(1,1000,100))ys=[math.log(x) for x in xs]#导入库import matplotlib.pyplot as plt#使图形直接显示%matplotlib inline#中文显示plt.rcParams['font.family'] = ['sans-serif']plt.

2020-12-20 22:26:12 243 2

原创 爬虫之碎片笔记(beautifulsoup库、文件读写、解码与编码、json、时间戳)

1、beautifulsoup库安装库:开始菜单输入cmd -> 打开命令框 ->输入 :pip install bs4参考文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/2、基础文本操作打开文件 open():r(默认模式) ; w(此状态下无法执行 .read()方法); a(追加到文末);读取文件 :如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果

2020-12-18 15:07:14 269

原创 基础爬虫与xpath

1.基础爬虫import request#请求头信息headers={'User-Agent':''}#代码向服务器发送get请求,get是发送请求的方式,postresponse=request.get(url='',headers=headers)#将内容写入文件with open('') as f: f.write(response.content)2.Xpath的基本使用简介:Xpath是一门在XML文档中查找信息的语言,使用路径表达式来选取XML文档中的节点或者节点集,速度较

2020-12-16 17:14:58 94

原创 openpyxl库、python-docx库(适用自动化办公,需要时学习文档即可)

1.openpyxl库安装openpyxl库: 开始菜单输入cmd -> 打开命令框 ->输入 :pip install -U openpyxl -i https://pypi.douban.com/simpleopenpyxl库参考文档(需要时参考文档教程):http://yumos.gitee.io/openpyxl3.0/index.html#document-tutorial常用功能实例:# 1. 模块导入import openpyxlfrom o

2020-12-14 10:37:23 521 2

原创 路径加载连接方式、相对路径绝对路径互相转换

1. 路径加载连接的三种方法# (1)/ 推荐使用的方式'''mac和linux中默认路径符使用方式例如: '/Users/mac/Desktop'在window中使用也可以例如:'C:/Users/Desktop''''# 总结: 如果路径连接符是 / 可以正常在windows、mac、linux中使用# (2) \ # windows中默认使用的路径连接符# 例如:C:\Users\Desktop# path = 'C:\Users\Desktop'# 如果用上面的形

2020-12-14 09:53:40 922

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除