- 博客(55)
- 收藏
- 关注

原创 『python』项目实践-用户消费行为分析
数据集简介数据集来源于CDnow零售网站的用户消费购买行为,数据集一共包含四个字段:user_id,购买日期,购买数量和购买金额。属于非常典型的消费行为数据集。...
2019-06-03 16:59:07
1637
1
原创 「Python」提取json数据为txt格式成功
步骤1、你要检查json文件利用专门的解析json文件的网站校验进行https://www.sojson.com/2、不符合JSON语法格式的会报错,这时需要修改,直到正确3、Python读取一、JSON 语法规则数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组举例问题:它报错说逗号有问题,其实不是,问题出在缺少中括号。在最外层补充中括号,JSON文件就没问题了。二、Python读取json数据完整正确的代码:import jsonfile=r'中国合作t
2020-09-19 09:54:05
3241
1
翻译 『Python』快速复盘【泰坦尼克获救预测分析】·动手学数据分析
半年前为了学习机器学习的分类模型,首次写下这篇博客泰坦尼克获救预测分析,如今为了巩固python分析基础(提醒自己基础熟练的重要性!!!),还有分享如何快速“动手学数据分析”,快速复盘这个案例。(https://blog.csdn.net/weixin_41903171/article/details/104529518)Python数据分析流程一、数据基本操作1.数据加载1.1载入数据1.2初步观察1.3保存数据2.Pandas基础2.1认识Pandas中两数据结构:DateFrame和Series2.
2020-08-19 08:54:18
2309
1
原创 『Mac系统』-解决·忘记Mysql数据库密码
突然之间失忆,忘记密码怎么办,按下面办法找回哦第一步:关闭mysql服务: 苹果->系统偏好设置->最下边点mysql 在弹出页面中 关闭mysql服务(点击stop mysql server)最后如下图:第二步:进入终端输入:cd /usr/local/mysql/bin/回车后 登录管理员权限: sudo su回车后,输入你的电脑本机密码:XXXX回车后输入以下命令来禁止mysql验证功能: ./mysqld_safe --skip-grant-tables &回
2020-06-24 14:41:48
388
翻译 『Excel』常用五大类函数汇总
这里对数据分析中常用的excel函数进行分类汇总,共五类:关联匹配类、清洗处理类、逻辑运算类、计算统计类、时间序列类一、关联匹配类数据不在同一个excel表或同一个excel表不同sheet中,数据太多,copy麻烦也不准确,如何整合呢?这类函数就是用于多表关联或者行列比对时的场景,而且表越复杂,用得越多。包含8个函数:VLOOKUP、HLOOKUP、INDEX、MATCH、RANK、...
2020-03-28 10:27:18
9717
翻译 『SQL』常考面试题(1)
一、内容表1——学生表:student表2——科目、分数表:kecheng二、问题1.查询所有学生的数学成绩,显示学生姓名name, 分数, 由高到低2.统计每个学生的总成绩,显示字段:姓名,总成绩3.统计每个学生的总成绩(由于学生可能有重复名字),显示字段:学生id,姓名,总成绩4.列出各门课程成绩最好的学生, 要求显示字段: 学号,姓名,科目,成绩5.列出各门课程成绩最好的...
2020-03-27 16:04:44
985
翻译 『SQL』常考面试题(2——窗口函数)
一、窗口函数是什么既可以显示原始基础数据也可以显示聚合数据。二、为什么需要窗口函数SQL中有一类函数叫聚合函数(聚合函数顾名思义就是聚集合并的意思,是对某个范围内的数值进行聚合,聚合后的结果是一个值或是各个类别对应的值。),比如count、sum、avg、min、max等,这些函数的可以将多行数据按照规整聚集为一行,一般聚集前的数据行要大于聚集后的数据行。而有时候我们不仅想要聚集前的数据,又...
2020-03-23 15:31:43
2106
2
原创 【机器学习实战1——分类】——泰坦尼克获救预测
一、大背景泰坦尼克号沉没是历史上最著名的沉船事故之一。1912年4月15日,泰坦尼克号在与冰山相撞后沉没,造成在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。在这个案例中我们将运用机器学习来预测哪...
2020-02-29 09:48:49
1441
原创 『python』业务案例实战-用户留存率维度分析
一、背景一个平台的用户数量由两个因素决定,一个是能进来多少用户,另一个是进来的这些用户有多少可以留下来,用留存率这个指标来评判留下来的情况(比如评判拉新留存率,看市场同学的效果)二、题目1、计算用户的0-3天、3-7天、7-15天、>15天这几个时间段的留存率2、用图表的形式表示不同时间长度的留存率三、指标说明1、留存率:用户在一个平台上首次购买以后多少天内还进行了第二次购买的比...
2020-02-24 09:59:42
1862
原创 『Linux』学习1
目录一、linux作用商业服务器基本都是linux开源软件都先支持linux大数据分析、机器学习首选linux整个互联网地基靠linux撑起来二、学习安排Linux操作系统Linux命令SSH缓存必备服务(日志)三、学习收获掌握基本运维能力开始啦!开始啦!开始啦!一、Linux简介1、Linux是什么在终端,操控服务器。2、Linux能做什么...
2020-02-23 16:00:26
150
原创 『python』业务案例实战-用户生命周期维度分析
一、背景用户生命周期的长度可以说明用户在平台上的忠诚度,不同时期的用户表现是不一样的,可以通过人为干预用户的周期。二、题目1、计算所有用户生命周期的平均值2、用图表的形式说明不同时长生命周期的用户数量3、分析用户生命周期长短与用户首次购买金额的关系三、字段说明生命周期:用户在一个平台上最后一次购买时间与首次购买时间差为该用户在平台上的生命周期四、逻辑说明1、将用户的最后一次购买...
2020-02-23 09:45:43
1083
原创 『python』业务案例实战-不同门店(不同城市/不同区域)维度分析原因
一、背景通过第一节我们已经判断出了17年4月各指标发展情况的好坏,作为数据分析师,不管业务出现好或者坏,都要去追寻为什么?在追寻为什么的时候,就可以结合业务具体去看是因为哪方面的变化,引起了某一段时间内整体指标的变化。这一节选择分门店维度去看一下17年4月各指标的变化情况。二、题目1、计算2017年4月不同门店的销售额、客流量、客单价2、计算2017年4月不同门店的的同比销售额、客流量、...
2020-02-22 09:32:45
618
原创 『Mac系统』安装pydotplus问题解决
首先用pip install pydotplus报错应该为conda install -c conda-forge pydotplus然后y最终成功
2020-02-21 17:35:26
654
原创 『python』业务案例实战-商品/类别维度分析原因
一、业务背景一般影响整体业绩的往往会是一些头部商品,如果发现总体指标变动较大时,首先需要去看头部商品的变动。符合二八定律。二、题目1、计算2017年4月销量Top10的商品以及商品类别。2、计算2017年4月销量Top10的商品以及商品类别在2017年3月的销量情况。3、计算2017年4月销量Top10的商品以及商品类别在2016年4月的销量情况。三、字段说明销量 = Qty四、计...
2020-02-21 08:53:04
410
原创 『python』业务案例实战-时间维度分析原因
一、业务背景通过【1】我们已经通过环比上月,去年同期判断出了17年4月各指标发展情况的好坏,作为数据分析师,不管业务出现好或者坏,都要去追寻为什么?在追寻为什么的时候,就可以结合业务具体去看是因为哪方面的变化,引起了某一段时间内整体指标的变化。这一节选择时间维度去看一下17年4月不同时间维度各指标的变化情况。二、题目1、计算2017年4月每日的销售额、客流量、客单价,并用图表形式展现(每天...
2020-02-20 09:40:14
584
原创 『python』业务案例实战-超市营业情况关键指标数据报表
一、题目1、 计算2017年4月销售额、客流量、客单价2、计算2017年4月的同比销售额、客流量、客单价3、计算2017年4月的环比销售额、客流量、客单价二、字段说明销售额 = 售价 乘 销量 = [“Price”] 乘 [“Qty”]客流量 = 订单量(客流量用订单量代替)客单价 = 销售额/客流量同比(年):指相邻时间段内的相同时间段内的数据之比,2017年的4月的同比是...
2020-02-19 15:10:03
675
原创 【业务模型】AARRR模型(海盗模型)
一、海盗模型指标体系是什么AARRR 包括了五个指标,这五个指标包括了从客户注册产品或者服务到付费的全过程。获取用户(Acquisition)首先让用户知道了解产品,通过社交媒体、内容营销、免费试用、销售推广、Q&A等不同渠道策略来获得曝光。随后运营人员需对渠道进行分析,你可以用这三个问题来评判你所有的渠道,并找出最适合你业务的渠道:哪个渠道的客户最多(绝对数量)?哪个渠道质...
2020-02-19 11:07:18
8064
原创 『Leetcode』【链表】面试题14-链表中倒数第k个结点
一、题目输入一个链表,输出该链表中倒数第k个结点。class Solution: def FindKthToTail(self, head, k): # write code here # 特殊情况 # if not head or k <= 0: if head is None or k <= 0: ...
2020-02-19 09:02:52
150
原创 『Leetcode』【链表】面试题3-从尾到头打印链表
一、题目从尾到头打印链表。即输入一个链表,返回一个反序的链表。class Solution: # 返回从尾部到头部的列表值序列,例如[1,2,3] def printListFromTailToHead(self, listNode): # write code here a = [] while(listNode): ...
2020-02-18 16:40:59
136
原创 『Leetcode』【栈】面试题31-栈的压入、弹出序列
题目输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈序列对应的一个弹出序列,但4,3,5,1,2就不可能是该压栈序列的弹出序列。(注意:这两个序列的长度是相等的)class Solution: def IsPopOrder(self, pu...
2020-02-17 15:39:44
257
原创 『Leetcode』【栈】面试题30-包含min函数的栈
一、牛客网和leetcode题目一样定义栈的数据结构,请在类型中实现一个能够得到栈最小元素的min函数。class MinStack(object): def __init__(self): self.stack = [] self.min_stack = [] def push(self, node): # write ...
2020-02-16 17:30:36
130
原创 『Leetcode』【栈/队列】面试09-用两个栈来实现队列
一、栈/队列是什么1、栈又名堆栈,它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶,把另一端称为栈底。向一个栈插入新元素又称作 进栈、入栈或压栈,它是把新元素放到栈顶元素的上面,使之成为新的栈顶元素;从一个栈删除元素又称作出栈或退栈,它是把栈顶元素删除掉,使其相邻的元素成为新的栈顶元素。栈作为一种数据结构,是一种只能在一端进行插入和删除操作的特殊线性表。它...
2020-02-15 17:22:15
172
原创 『python』用法记录-定义类:class
一、类的作用类仅仅充当图纸的作用,本身并不能直接拿来用,而只有根据图纸造出的实际物品(对象)才能直接使用。二、使用顺序Python 中定义一个类使用 class 关键字实现,故python中使用类的顺序。1、创建(定义)类,也就是制作图纸的过程;2、创建类的实例对象(根据图纸造出实际的物品),通过实例对象实现特定的功能。三、构成部分类的名称:类名类的属性:指对象的特征(一组数据)...
2020-02-15 15:51:03
433
原创 『Hive』-总结一
由于目前利用Hive来读取数据在第一阶段把遇到的几个点记录下来,供以后参考。一、查看表结构结果如下二、时间戳转化数据库里的数据是15位(毫秒)时间戳形式的,要转化为常见数据格式。也可以百度在线转换工具。三、比率四、分割字段五、截取字符六、不同版本的活跃和次日留存...
2019-11-26 11:05:48
200
原创 『SQL』业务案例实战——专题四
专题四:会员特征分析1、题目二、业务背景和价值三、商业知识点思考四、SQL知识点1、case when2、子查询3、变量定义五、SQL逻辑说明5.1:平均客单价5.2:客单价区间订单5.3订单购买的商品数分布(每个订单中,购买1,2,3…件)5.4、周末&非周末 中的 会员VS非会员 的订单量占比分布tips:算占比往往可以用一个技巧:变量赋...
2019-11-17 16:36:15
258
原创 『MySQL』-窗口函数(分析函数)(4)
一、窗口函数(分析函数)常用分析场景二、窗口函数细分三、窗口函数语法说明四、分析函数之:排序函数4.1排序窗口函数语法说明如果排序不指定,默认是升序。...
2019-11-17 15:24:51
561
1
原创 『SQL』业务案例实战——专题三
专题三:不同情况下客流分析一、题目(从以下几个维度分析)1.时间2.类别(哪些用来吸引,哪些用来捎带)3.交叉分析二、业务背景和价值三、商业思考点四、SQL知识点五、SQL逻辑说明六、代码第一步:每天客流量第二步:周末和非周末第一个子查询是周末和非周末的第二个子查询是总体的补充:周末和非周末的判断函数第三步:各个大类和周末&非周末...
2019-11-15 15:41:25
264
原创 『SQL』业务案例实战——专题二
专题二:提取会员主要的数据指标(字段)一、题目二、业务背景和价值针对上面的指标可以做很多专题分析,如下:场景一:针对快流失的用户,而不是已经流失的。三、商业知识点思考1、怎样基于会员的购买次数来确定会员活跃度?2、怎么基于会员最后一单距离当前时间确定会员的活跃度?四、SQL知识点1、多表查询2、时间间隔的统计函数五、SQL逻辑说明第一步:取订单表里的数据第二步...
2019-11-08 11:09:42
284
原创 『SQL』业务案例实战——专题一
专题一:销售数据统计指标一、题目二、业务背景和价值三、业务指标定义四、商业思考点1、如果你是超市经营者,你会怎么做?2、动销率可以用来衡量什么?五、SQL知识点1、基本数据查询2、子查询的掌握六、SQL逻辑说明找字段、找表、分步骤。第一步:按商品——统计每个商品分别销售了多少天第二步:按天——再统计产生1天,2天…的商品个数是多少。...
2019-11-07 16:17:46
370
原创 『SQL』业务案例实战
一、零售(超市/便利店/电商)业务流程是怎样的?1、知道分析是针对哪个流程的。2、日期维度很重要,实际,会先用函数把日期各个维度做成一个表。如下二、连接远程服务器的数据库1、后续实战练习均基于这个数据库,连接好,如下显示2、口径说明这是以某超市的两家门店的真实数据作为实战练习首先对敏感数据进行了处理然后对数据内容进行简单处理...
2019-11-07 15:21:53
308
原创 数据分析流程
数据分析报告是产生价值的,也许可以产生数据产品,给公司带来收益的。为了让自己更深入理解数据分析报告:假设一、背景以电商行业为主先看下它的生命周期一般作为(电商)数据分析师会遇到的谈判场景。思考自己作为数据分析师的价值,不应该只是完成报表需求和取数需求。应该如下思考自己的价值写份数据分析报告来给业务方或者运营方一个方法或者一个思考点1、与业务方和品牌商沟通了解,他们的...
2019-11-03 17:26:22
642
原创 【机器学习】第一部分:数据预处理
全面建立机器学习的知识架构,并且在Python里构建不同的机器学习模型。针对如下数据构建用户行为特征模型目的:通过已有的用户信息,国家,年龄,薪水构建模型,预测以后用户购买行为。一、数据预处理# Data Preprocessing Template# Importing the librariesimport numpy as npimport matplotlib.p...
2019-11-01 11:18:39
195
原创 想作为分析师,建立自己【分析套路】
先来看几个问题第一题:你认为数据分析如何体现价值?你是怎么做的?我的答案:1、业务数据监控:梳理业务逻辑,构建业务指标体系2、寻找业务问题点和机会点,调整运营策咯标准答案:我要把数据分析落地到业务中执行,并且要跟进执行效果,要针对执行效果进行复盘,闭环的进行迭代上升。(这个是数据分析岗位最核心的点)所以我们需要建立自己的数据分析流程, 从业务中主动发现问题,是服务运营和产品。参考...
2019-11-01 09:31:09
235
原创 『excel』函数·整理
一、关于函数的说明excel强大之处在于嵌套函数。二、基本运算符三、文本函数1、单元格自动补全(=…)2、在编辑栏-点击函数fx-跳出插入函数的文本框3、公式-查入函数4、举例截取替换动态替换(随字符长度 )tips1、函数非常多,基本都学清楚不可能,常用的是【日期和时间】【查找和引用】【其他统计函数】。其他的遇到用搜索引擎和社区再找。2、想看公式怎么写的,在...
2019-10-17 16:12:52
219
原创 『excel』基本操作流程·思路整理
拿到一份excel电商数据我的分析流程一、数据了解举例拿到这样的一份关于订单商品的数据1、看列数:选中第一行,在右下方会出现计数。2、看行数:选中第一列,在右下方会出现计数。3、看没列都什么意思,看口径。(花5分钟吧, 最好再开一个表,写下来你认为的口径)4、第一步把整体的网格线去掉。5、字体全部改为微软雅黑-10号字。6、在格式那里-选择“自动调整列宽”和“自动调整行高”。...
2019-10-16 21:55:48
631
原创 如何构建数据产品的指标体系
在交流数据分析领域的时候?我们经常会遇到这样的问题,说说你眼中的数据体系?说一款你熟悉的app,并对其指标进行分析?我们该如何应对呢?这里我总结下我学到的。首先从对一个产品构建数据指标体系说起,任何产品的用户都会有生命周期,即用户从接触产品到抛弃产品的一个过程。 即便是同一产品在不同的生命周期重点数据指标也可能不一样。而且产品在构建数据指标体系的过程中,需要对指标的意义深入思考,这样有助于后...
2019-10-10 19:43:41
1329
原创 『Git』添加新文件操作
在IDEA里写项目,一定要小心Git操作,不然多人协作非常容易冲突。而且改一点就传到github上一点,不要堆积一起传,也非常容易冲突。我把在IDEA中项目里添加新文件的过程记录下来。首先在IDEA软件里的terminal里写git操作语句步骤如下:OK!...
2019-06-26 11:06:34
1196
原创 『SQL』案例实战-经营分析周报
对于零售行业来说:改动:销售量改为销售金额。说明:客流量用小票数量来衡量。一、连接数据库打开DBeaver 。类似MySQLWorkbench。 DBeaver 是一个通用的数据库管理工具和 SQL 客户端(客户端可以连接很多远程服务器),支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其...
2019-06-24 15:39:52
1338
原创 『Python』数据处理方法总结
数据录入df=pd.DataFrame({'id':[1,1,1,3,4,5],'name':['Bob','Bob','Mark','Miki','Sully','Rose'], 'score':[99,99,87,77,77,np.nan], 'group':[1,1,1,2,1,2]})数据处理...
2019-06-18 10:58:06
2388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人