小白冲啊-CSDN博客

转载 hive中如何将存在分隔符号的一列进行拆分，成为多行（可参考之前行转列，列转行笔记第三部分）

hive中如何将存在分隔符号的一列进行拆分，成为多行

2022-11-19 10:30:45 2901 1

原创 mysql中如何将存在分隔符号的一列进行拆分，成为多行

mysql中如何将存在分隔符的一列，进行分割后，转变成多行

2022-11-19 10:21:01 5680

原创 xmind相关快捷键

平常整理思维导图使用鼠标点击太费力了，看了下键盘快捷键，记一笔

2021-06-28 16:07:21 226

原创 sql小题笔记--寻找用户推荐人（注意null值的判断）

寻找用户推荐人给定表 customer ，里面保存了所有客户信息和他们的推荐人。+------+------+-----------+| id | name | referee_id|+------+------+-----------+| 1 | Will | NULL || 2 | Jane | NULL || 3 | Alex | 2 || 4 | Bill | NULL || 5 | Zack |

2021-05-12 09:21:09 369

原创 sql练习题--给定数字的频率查询中位数

Numbers 表保存数字的值及其频率。+----------+-------------+| Number | Frequency |+----------+-------------|| 0 | 7 || 1 | 1 || 2 | 3 || 3 | 1 |+----------+-------------+在此表中，数字为 0, 0, 0,

2021-05-10 09:42:07 227

原创 sql中null值对avg、count函数的影响

一、AVG()求平均值注意AVE()忽略NULL值，而不是将其作为“0”参与计算，如果需要计算真实平均值可以先将null值替换为0，比如avg(event_date is not null)二、COUNT()两种用法1、COUNT(*)对表中行数进行计数不管是否有NULL2、COUNT(字段名)对特定列有数据的行进行计数忽略NULL值三、MAX()、MIN()求最大、最小值都忽略NULL...

2021-05-08 11:32:07 1016

转载 SQL左连接中的on and和on where的区别

转载,原文链接：http://blog.csdn.net/xingzhemoluo/article/details/39677891SQL左右连接中的on and和on where的区别在使用left join时，on and和on where条件的区别如下：1、on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录（涉及右表的会直接过滤掉，涉及左右表之间的条件过滤完之后，不符合的左表的记录都会返回同时右表置空）。2、where条件是在临时表生成好后，再对临时表进行过

2021-05-08 11:20:34 2828

原创回归分析相关知识整理（xmind）

2021-04-23 16:08:23 116

原创描述性统计分析基础知识整理（xmind）

2021-04-23 16:05:47 252 2

原创业务目标拆解

1.业务目标制定遵循SMART原则：——S代表具体(Specific)，指绩效考核要切中特定的工作指标，不能笼统；——M代表可度量(Measurable)，指绩效指标是数量化或者行为化的，验证这些绩效指标的数据或者信息是可以获得的；——A代表可实现(Attainable)，指绩效指标在付出努力的情况下可以实现，避免设立过高或过低的目标；——R代表相关性(Relevant)，指绩效指标是与工作的其它目标是相关联的；绩效指标是与本职工作相关联的；——T代表有时限(Time-bound)，注重完成绩效指

2021-03-23 17:23:22 1437

原创如何进行用户留存分析

1.用户增长模型AARRR模型（aha时刻（啊哈））2.留存的价值●判断产品是否达到PMF (产品满足市场需求)●大力宣传推广前的基础●提升拉新效果●延长用户生命周期，最大限度的产生价值●体现用户忠诚度●推荐其他新用户3.留存监控用户规模=新增用户+老用户留存留存率=在观察期重复使用产品的用户规模/指定用户规模4.留存数据输出（制式）举例：首先，假设要计算7天内，每天登录APP的留存率。1)记录每天登录APP的用户数。2)追踪这些用户在接下来的每一天里继续登录APP的数量

2021-03-22 16:54:25 2372

原创用户分析

一、目的与价值用户分析的本质就是对用户进行分类。用户生命周期：（拉新、促活留存、转化、推荐）引入期—成长期—成熟期—休眠期—流失期二、如何进行分析①用户结构分析一般包含以下几方面：1.社会属性:年龄，性别，地域，学历，家庭状况，婚姻，子女等等。2.商业属性:财富等级，消费档次，信用等等。3.心理属性:价格敏感性、偏好属性等等。4.行为属性:游览频次，浏览品类、浏览价格带、下单频次、下单品类、下单价格带等等。5.价值属性: ADR贡献等的行为总结(ADR指标又叫涨跌比率指标或上升下降比

2021-03-18 16:42:35 9199

原创流量分析

一、流量分析的价值业务上:1．清晰了解流量来源以及各来源的质量。2．清晰了解流量在产品内部的运行轨迹和路径，从而优化产品结构。3.清晰了解在用户路径的每个节点上，流量转化和损耗情况，从而找出问题点进行优化。4．清晰了解运营活动中，如何设计运营活动页、广告投放页等页面，能更好的承接流量和转化，提高ROI。技术上︰1．发现底层服务上的BUG，降低服务崩溃导致的损失。2.改进资源部署网络，合理分配软硬件资源。总的来说，流量分析主要是让我们知道，用户是从什么渠道到达产品的，在产品内部是如何流转的，

2021-03-17 11:08:31 7214

原创产品功能分析

一、基础①明确目标②熟悉流程与功能1.将产品的所有功能体验一遍并按照浏览路径绘制产品结构图，了解业务如何在产品中运转以及各功能模块间的运转路径。如某找房app的一小部分结构图如下：2.思考各个模块用户价值（帮助用户解决什么问题？为用户提供什么价值？）3.了解各个模块商业价值【广告计费名词解析：CPA: Cost Per Activity(Action) 直译为每动作成本,由广告所带来的用户产生的每次特定行为的费用，即根据每个访问者对网络广告所采取的行动收费的定价模式。CPS: Co

2021-03-17 11:03:16 3217

原创节假日复盘分析

一、基本概念团队复盘，我们需要考虑两个方面: (1）我们的既定目标是否达成?(2）**达成/未达成的原因是什么?**运营活动策略有问题?组织保障有问题?还是其他方面的问题?复盘目的：复盘会议参加人员：项目相关人员都要参加，面向受众除了面向管理层和各个业务单元负责人外，还需要面向在项目中的参与其中的协作对象，比如产品侧同事、运营侧同事、研发侧同事，…复盘时间原则：①小事及时复盘②大事阶段性复盘③项目结束后全面复盘二、节假日复盘分析节假日**活动全流程**：节假日复盘分析的特点：

2021-03-11 17:53:02 640

原创如何搭建经营分析看板

一、基本概念目的：了解现状 ——>剖析原因——>预测未来汇报对象：MM层（管理层）要求：1.内容：结果分析、变化趋势、异常拐点分析；2.频次要求：周/月维度为主（会引发出不同的专题分析，如用户增长等）二、怎么写？（以解决公司实际问题为目的）整体结构（五步走）：明确目标，设定分析方案，数据获取/处理/分析，得出业务结论，写报告。常规报告：背景（为啥要做这个报告）——》分析范围（分析谁）、分析方法（用啥方法）——》数据展示、重点解析、收益预测——》结论推导、策略建议（接下来

2021-03-11 14:13:20 1769

原创 excel图形二（雷达图、瀑布图&甘特图、旭日图、树状图、组合图）与动态图

1、雷达图中想加入蜘蛛网类似的线，可先把图改成折线图，然后选中纵坐标轴，在填充与线条选项下将线条更改为实线，然后可设置颜色，然后再将图表更改成雷达图（效果如左图到右图）；2、雷达图中选择填充图，选中填充区域后，在填充与线条选项下，将线条改为实线，将标记中的填充改为无填充，即可将外层更改为实线，效果如下图；3、对于瀑布图，若想将应发工资等设为合计，可以选中单个柱条，在系列选项中勾选设置为汇总，即可出现右图灰色柱条，若想将加项与减项以更直观的方式显示出来，可以辅助插入两个图形，将需要的图形先复制，选中需

2021-02-25 16:20:14 3708

原创 excel基础图形笔记（柱状图、条形图、折线图、饼图、散点图、箱线图、漏斗图）

excel画图小记：1、高：10 ；宽：16.17；（符合0.618黄金比例）具体操作：选中图表->右键->设置图标区域格式->大小与属性；2、看销量排名，一般用条形图（横放的柱状图），将X轴放到下面（选中x轴，标签位置选择高），y轴逆序排列（选中y轴->坐标轴选项->逆序类别）；3、堆积条形图一般最好不要超过5个类别；4、折线图横轴为时间，可添加趋势线；5、百分比面积图如要添加最后的占比标签，可将图形先更改为折线图，添加标签完成后，再更改图形为百分比面积图；

2021-02-23 19:37:15 2875

原创 sql小题笔记

题目一：查询“6”课程比“2”课程成绩高的所有学生的学号。-- 建表：CREATE TABLE `sc` ( `Sid` int(20) DEFAULT NULL, `Cid` int(20) DEFAULT NULL, `score` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL);-- 插入记录：INSERT INTO `sc` VALUES ('1', '2', '80');INSERT INTO `sc` VALUES ('2

2021-02-06 14:34:01 101

原创 hivesql常用优化技巧

一、列裁剪与分区裁剪1.列裁剪（只查询需要的字段，千万不要直接写 select * from）列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时，如果select所有的列或者不指定分区，导致的全列扫描和全表扫描效率都很低。2.分区裁剪（有分区条件的一定要加上分区条件【如：dt...】）分区裁剪就是在查询时只读需要的分区。二、排序技巧–distribute by 与sort by 配合使用代替 order byorder by：将结果按某个字段全局排序，导致所有map端数据都进入一个r

2021-02-02 17:53:15 2015

原创列转行，行转列（hivesql）

一、笛卡尔积笛卡尔积即交叉连接,返回结果的行数等于两个表行数的乘积。笛卡尔积会出现的可能情况：1.省略连接条件2.连接条件无效3.所有表中的所有数据互相连接二、列转行concat_ws()：concat_ws (separator,字符串A/字段名A,字符串B/字段名B…)是concat的特殊形式，第一个参数是其他参数的分隔符，分隔符会放到连接的字符串之间,分隔符可以是一个字符串，也可以是其他参数.如果分隔符为NULL,则结果为NULL,函数会忽略任何分隔符参数后的 NULL值。但是conc

2021-02-01 16:04:38 1885

原创正则表达式

概念正则表达式（ Regular expression）是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子。总结：正则表达式就是记录文本规则的代码，并不是哪门编程语言的特有的，它的语法可以用在多门语言中进行文字匹配。比如：我们要从一段文字中匹配出电话号，我们可以用\d表示一个数字，11位的电话号用正则表达式为：\d{11}。参考链接https://docs.python.org/zh-cn/3/library/re.html?highlight=re#module

2021-01-28 17:52:32 119

原创 hivesql--窗口函数

hivesql–窗口函数xmind获取地址：https://pan.baidu.com/s/15hegE_7LpWfKLrOVDBIs1w提取码：skux

2021-01-28 11:44:57 170

原创利用pymysql库连接python

python连接mysql 0115pymysql

2021-01-24 20:30:57 104 2

原创 hivesql 执行顺序与常用函数、表连接、coalesce函数

xmind获取链接：https://pan.baidu.com/s/1IppOx-eu17i3mIvYaqZnsA提取码：iasu

2021-01-22 17:01:04 216

原创 hive数据类型、常用Linux命令

数据类型TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARYTIMESTAMPDECIMALCHARVARCHARDATEhive语言手册官网链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL⒉常用的Linux命令cd:切换目录，进入到某个目录cd /etc/表示进入/etc这个目录中2. cd …/表示返回上一级目录cd进入

2021-01-20 21:27:55 108

原创 sql阶段之案例小记

数据：https://pan.baidu.com/s/15pV-S5vTVQrmoq5zmXDTyw提取码：v9yp1、首先通过jupyternotebook做下简单处理，并将数据做新的保存import pandas as pd #读取数据data=pd.read_excel(r'C:/Users/Administrator/Downloads/20210115数据.xls')#查看数据信息data.info()#将空的那几行数据暴力删除算了，并在原数据上进行修改data.dropna(h

2021-01-16 16:34:36 104

原创 mysql 部分函数笔记、SELECT语句解析顺序

count相关注意点count(列名) 返回某列的行数(不包括NULL值)count(*) 返回被选行数时间相关函数SELECT NOW(), #返回当前日期和时间DATE(now()), #日期格式MONTH(NOW()), #月份YEAR(NOW()),#年份DATE_FORMAT(NOW(),'%Y-%m-%d'),#年月日格式DATE_FORMAT(NOW(),'%Y-%m'),#年月格式大写为英文，小写为汉字DATE_ADD(NOW(),INTERVAL 1

2021-01-14 10:51:30 85

原创 sql 相关 xmind

1、sql不区分大小写,一般关键字大写,表名\列名小写;2、count(列名) 返回某列的行数(不包括NULL值)count(*) 返回被选行数3、时间相关函数SELECT NOW(), #返回当前日期和时间DATE(now()), #日期格式MONTH(NOW()), #月份YEAR(NOW()),#年份DATE_FORMAT(NOW(),'%Y-%m-%d'),#年月日格式DATE_FORMAT(NOW(),'%Y-%m'),#年月格式大写为英文，小写为汉字DAT

2021-01-10 11:28:14 182 2

原创 python案例分析之电商销售数据分析

电商销售数据分析：待更新

2021-01-07 09:50:31 3849 4

原创 python案例之电影数据分析

练习数据：https://pan.baidu.com/s/1hf-J5XZCKSI329qIGWxChw提取码：tckkimport pandas as pd#读取文件df=pd.read_csv('./movie_metadata.csv')########## 浏览大概数据 ############ 查看行列数# print(df.shape)# 查看非空数量# df.count()# 查看每列空值合计# df.isna().sum()# 查看最小值、最大值、四分位等

2021-01-02 13:57:52 3644 3

原创空值处理、去重、无穷大（inf）的处理、分组聚合agg、map/apply/applymap、匿名函数（lambda）、透视表、where/mask

1、空值处理student_excel.xlsx如图：import pandas as pd#表头为第三行（索引为2）df1=pd.read_excel(r'C:\Users\9250\Downloads\20201228课后资料\20201228课后资料\student_excel.xlsx',header=2)print(df1)print('*'*20)# 判断每一列中是否包含Nan# df.isnull().any()# df.isnull().all() # 是否全是空值

2020-12-30 14:15:35 1044 2

原创 pandas碎片笔记（二）【查询、筛选、删除、拼接】

1、筛选符合条件的记录#导入包import pandas as pd#读取文件df=pd.read_csv(r'C:\Users\Administrator\20201225课后资料\20201225课后资料\BJ_tianqi-F.csv')#按照两列排序,按照最高温度升序、最低温度降序排列#df.sort_values(by=['最高温度','最低温度'],ascending=['True','False'])#先将最高温度的符号去掉df.loc[:,'最高温度']=df['最高温

2020-12-28 15:32:57 354 4

原创 pandas 碎片笔记（一）

小题练习一创建Series对象，定义索引为abcde，打印索引与内容；import pandasfrom pandas import Series,DataFramesel=Series(data=[1,2,3,4,5],index=list('abcde'))print(sel)print(sel.index)print(sel.values)小题练习二创建一个DataFrame。name为张三、李四、王五、赵六；age为18,20,56,33；national为山西、北京、吉林、山

2020-12-25 11:33:54 157 3

原创 numpy碎片笔记（创建数组、调整数组形状、数组转换成list、数组的切片、条件取值、按轴计算、数组的计算、nan值的相关处理），用均值填充空值

numpy参考文档：https://www.numpy.org.cn/reference/# 1. 创建一维数组import numpy as nplist1 = [1,2,3,4] oneArray = np.array(list1)print(type(oneArray)) #numpy.ndarrayprint(oneArray) # [1 2 3 4] print(oneArray.shape) # (4,)print('*'*16)t2 = np.array(r

2020-12-23 14:57:10 240

原创使用matplotlib画图

matplotlib 库1、官方文档：https://matplotlib.org/2、使用 matplotlib 画基础图形import mathxs=list(range(1,1000,100))ys=[math.log(x) for x in xs]#导入库import matplotlib.pyplot as plt#使图形直接显示%matplotlib inline#中文显示plt.rcParams['font.family'] = ['sans-serif']plt.

2020-12-20 22:26:12 243 2

原创爬虫之碎片笔记（beautifulsoup库、文件读写、解码与编码、json、时间戳）

1、beautifulsoup库安装库：开始菜单输入cmd -> 打开命令框 ->输入：pip install bs4参考文档：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/2、基础文本操作打开文件 open()：r(默认模式) ； w（此状态下无法执行 .read()方法）； a(追加到文末)；读取文件：如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果

2020-12-18 15:07:14 269

原创基础爬虫与xpath

1.基础爬虫import request#请求头信息headers={'User-Agent':''}#代码向服务器发送get请求，get是发送请求的方式，postresponse=request.get(url='',headers=headers)#将内容写入文件with open('') as f: f.write(response.content)2.Xpath的基本使用简介：Xpath是一门在XML文档中查找信息的语言，使用路径表达式来选取XML文档中的节点或者节点集，速度较

2020-12-16 17:14:58 94

原创 openpyxl库、python-docx库（适用自动化办公，需要时学习文档即可）

1.openpyxl库安装openpyxl库：开始菜单输入cmd -> 打开命令框 ->输入：pip install -U openpyxl -i https://pypi.douban.com/simpleopenpyxl库参考文档（需要时参考文档教程）：http://yumos.gitee.io/openpyxl3.0/index.html#document-tutorial常用功能实例：# 1. 模块导入import openpyxlfrom o

2020-12-14 10:37:23 521 2

原创路径加载连接方式、相对路径绝对路径互相转换

1. 路径加载连接的三种方法# （1）/ 推荐使用的方式'''mac和linux中默认路径符使用方式例如： '/Users/mac/Desktop'在window中使用也可以例如：'C:/Users/Desktop''''# 总结：如果路径连接符是 / 可以正常在windows、mac、linux中使用# （2） \ # windows中默认使用的路径连接符# 例如：C:\Users\Desktop# path = 'C:\Users\Desktop'# 如果用上面的形

2020-12-14 09:53:40 922

空空如也

空空如也