「数据处理能力」之编程技术
数据库/Python/Hive/SQL
馨颖
这个作者很懒,什么都没留下…
展开
-
『Python』快速复盘【泰坦尼克获救预测分析】·动手学数据分析
半年前为了学习机器学习的分类模型,首次写下这篇博客泰坦尼克获救预测分析,如今为了巩固python分析基础(提醒自己基础熟练的重要性!!!),还有分享如何快速“动手学数据分析”,快速复盘这个案例。(https://blog.csdn.net/weixin_41903171/article/details/104529518)Python数据分析流程一、数据基本操作1.数据加载1.1载入数据1.2初步观察1.3保存数据2.Pandas基础2.1认识Pandas中两数据结构:DateFrame和Series2.翻译 2020-08-19 08:54:18 · 2195 阅读 · 1 评论 -
『Python』数据处理方法总结
数据录入df=pd.DataFrame({'id':[1,1,1,3,4,5],'name':['Bob','Bob','Mark','Miki','Sully','Rose'], 'score':[99,99,87,77,77,np.nan], 'group':[1,1,1,2,1,2]})数据处理...原创 2019-06-18 10:58:06 · 2352 阅读 · 0 评论 -
『SQL』业务案例实战——专题四
专题四:会员特征分析1、题目二、业务背景和价值三、商业知识点思考四、SQL知识点1、case when2、子查询3、变量定义五、SQL逻辑说明5.1:平均客单价5.2:客单价区间订单5.3订单购买的商品数分布(每个订单中,购买1,2,3…件)5.4、周末&非周末 中的 会员VS非会员 的订单量占比分布tips:算占比往往可以用一个技巧:变量赋...原创 2019-11-17 16:36:15 · 232 阅读 · 0 评论 -
『SQL』业务案例实战——专题三
专题三:不同情况下客流分析一、题目(从以下几个维度分析)1.时间2.类别(哪些用来吸引,哪些用来捎带)3.交叉分析二、业务背景和价值三、商业思考点四、SQL知识点五、SQL逻辑说明六、代码第一步:每天客流量第二步:周末和非周末第一个子查询是周末和非周末的第二个子查询是总体的补充:周末和非周末的判断函数第三步:各个大类和周末&非周末...原创 2019-11-15 15:41:25 · 234 阅读 · 0 评论 -
『SQL』业务案例实战——专题二
专题二:提取会员主要的数据指标(字段)一、题目二、业务背景和价值针对上面的指标可以做很多专题分析,如下:场景一:针对快流失的用户,而不是已经流失的。三、商业知识点思考1、怎样基于会员的购买次数来确定会员活跃度?2、怎么基于会员最后一单距离当前时间确定会员的活跃度?四、SQL知识点1、多表查询2、时间间隔的统计函数五、SQL逻辑说明第一步:取订单表里的数据第二步...原创 2019-11-08 11:09:42 · 253 阅读 · 0 评论 -
『SQL』业务案例实战——专题一
专题一:销售数据统计指标一、题目二、业务背景和价值三、业务指标定义四、商业思考点1、如果你是超市经营者,你会怎么做?2、动销率可以用来衡量什么?五、SQL知识点1、基本数据查询2、子查询的掌握六、SQL逻辑说明找字段、找表、分步骤。第一步:按商品——统计每个商品分别销售了多少天第二步:按天——再统计产生1天,2天…的商品个数是多少。...原创 2019-11-07 16:17:46 · 333 阅读 · 0 评论 -
『SQL』业务案例实战
一、零售(超市/便利店/电商)业务流程是怎样的?1、知道分析是针对哪个流程的。2、日期维度很重要,实际,会先用函数把日期各个维度做成一个表。如下二、连接远程服务器的数据库1、后续实战练习均基于这个数据库,连接好,如下显示2、口径说明这是以某超市的两家门店的真实数据作为实战练习首先对敏感数据进行了处理然后对数据内容进行简单处理...原创 2019-11-07 15:21:53 · 277 阅读 · 0 评论 -
『MySQL』-窗口函数(分析函数)(4)
一、窗口函数(分析函数)常用分析场景二、窗口函数细分三、窗口函数语法说明四、分析函数之:排序函数4.1排序窗口函数语法说明如果排序不指定,默认是升序。...原创 2019-11-17 15:24:51 · 536 阅读 · 1 评论 -
『Hive』-总结一
由于目前利用Hive来读取数据在第一阶段把遇到的几个点记录下来,供以后参考。一、查看表结构结果如下二、时间戳转化数据库里的数据是15位(毫秒)时间戳形式的,要转化为常见数据格式。也可以百度在线转换工具。三、比率四、分割字段五、截取字符六、不同版本的活跃和次日留存...原创 2019-11-26 11:05:48 · 165 阅读 · 0 评论 -
『python』业务案例实战-用户留存率维度分析
一、背景一个平台的用户数量由两个因素决定,一个是能进来多少用户,另一个是进来的这些用户有多少可以留下来,用留存率这个指标来评判留下来的情况(比如评判拉新留存率,看市场同学的效果)二、题目1、计算用户的0-3天、3-7天、7-15天、>15天这几个时间段的留存率2、用图表的形式表示不同时间长度的留存率三、指标说明1、留存率:用户在一个平台上首次购买以后多少天内还进行了第二次购买的比...原创 2020-02-24 09:59:42 · 1786 阅读 · 0 评论 -
『SQL』常考面试题(2——窗口函数)
一、窗口函数是什么既可以显示原始基础数据也可以显示聚合数据。二、为什么需要窗口函数SQL中有一类函数叫聚合函数(聚合函数顾名思义就是聚集合并的意思,是对某个范围内的数值进行聚合,聚合后的结果是一个值或是各个类别对应的值。),比如count、sum、avg、min、max等,这些函数的可以将多行数据按照规整聚集为一行,一般聚集前的数据行要大于聚集后的数据行。而有时候我们不仅想要聚集前的数据,又...翻译 2020-03-23 15:31:43 · 1980 阅读 · 2 评论 -
『SQL』常考面试题(1)
一、内容表1——学生表:student表2——科目、分数表:kecheng二、问题1.查询所有学生的数学成绩,显示学生姓名name, 分数, 由高到低2.统计每个学生的总成绩,显示字段:姓名,总成绩3.统计每个学生的总成绩(由于学生可能有重复名字),显示字段:学生id,姓名,总成绩4.列出各门课程成绩最好的学生, 要求显示字段: 学号,姓名,科目,成绩5.列出各门课程成绩最好的...翻译 2020-03-27 16:04:44 · 918 阅读 · 0 评论 -
『python』业务案例实战-用户生命周期维度分析
一、背景用户生命周期的长度可以说明用户在平台上的忠诚度,不同时期的用户表现是不一样的,可以通过人为干预用户的周期。二、题目1、计算所有用户生命周期的平均值2、用图表的形式说明不同时长生命周期的用户数量3、分析用户生命周期长短与用户首次购买金额的关系三、字段说明生命周期:用户在一个平台上最后一次购买时间与首次购买时间差为该用户在平台上的生命周期四、逻辑说明1、将用户的最后一次购买...原创 2020-02-23 09:45:43 · 984 阅读 · 0 评论 -
『python』业务案例实战-不同门店(不同城市/不同区域)维度分析原因
一、背景通过第一节我们已经判断出了17年4月各指标发展情况的好坏,作为数据分析师,不管业务出现好或者坏,都要去追寻为什么?在追寻为什么的时候,就可以结合业务具体去看是因为哪方面的变化,引起了某一段时间内整体指标的变化。这一节选择分门店维度去看一下17年4月各指标的变化情况。二、题目1、计算2017年4月不同门店的销售额、客流量、客单价2、计算2017年4月不同门店的的同比销售额、客流量、...原创 2020-02-22 09:32:45 · 559 阅读 · 0 评论 -
『python』业务案例实战-商品/类别维度分析原因
一、业务背景一般影响整体业绩的往往会是一些头部商品,如果发现总体指标变动较大时,首先需要去看头部商品的变动。符合二八定律。二、题目1、计算2017年4月销量Top10的商品以及商品类别。2、计算2017年4月销量Top10的商品以及商品类别在2017年3月的销量情况。3、计算2017年4月销量Top10的商品以及商品类别在2016年4月的销量情况。三、字段说明销量 = Qty四、计...原创 2020-02-21 08:53:04 · 373 阅读 · 0 评论 -
『python』业务案例实战-时间维度分析原因
一、业务背景通过【1】我们已经通过环比上月,去年同期判断出了17年4月各指标发展情况的好坏,作为数据分析师,不管业务出现好或者坏,都要去追寻为什么?在追寻为什么的时候,就可以结合业务具体去看是因为哪方面的变化,引起了某一段时间内整体指标的变化。这一节选择时间维度去看一下17年4月不同时间维度各指标的变化情况。二、题目1、计算2017年4月每日的销售额、客流量、客单价,并用图表形式展现(每天...原创 2020-02-20 09:40:14 · 525 阅读 · 0 评论 -
『python』业务案例实战-超市营业情况关键指标数据报表
一、题目1、 计算2017年4月销售额、客流量、客单价2、计算2017年4月的同比销售额、客流量、客单价3、计算2017年4月的环比销售额、客流量、客单价二、字段说明销售额 = 售价 乘 销量 = [“Price”] 乘 [“Qty”]客流量 = 订单量(客流量用订单量代替)客单价 = 销售额/客流量同比(年):指相邻时间段内的相同时间段内的数据之比,2017年的4月的同比是...原创 2020-02-19 15:10:03 · 635 阅读 · 0 评论 -
『python』用法记录-定义类:class
一、类的作用类仅仅充当图纸的作用,本身并不能直接拿来用,而只有根据图纸造出的实际物品(对象)才能直接使用。二、使用顺序Python 中定义一个类使用 class 关键字实现,故python中使用类的顺序。1、创建(定义)类,也就是制作图纸的过程;2、创建类的实例对象(根据图纸造出实际的物品),通过实例对象实现特定的功能。三、构成部分类的名称:类名类的属性:指对象的特征(一组数据)...原创 2020-02-15 15:51:03 · 401 阅读 · 0 评论 -
『MySQL』-软件安装及数据库基础(1)
学习路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目原创 2019-03-31 11:50:30 · 233 阅读 · 0 评论 -
「MySQL』SQL基本语法和实战(2)
一、导入示例数据库。第一篇文章我是在mysql的命令行里导入的数据库。参考教程 https://www.yiibai.com/mysql/how-to-load-sample-database-into-mysql-database-server.html二、SQL和MYSQL区别SQL是结构化查询语言(Structured Query Language)。MYSQL是一个关系型数据库管...原创 2019-04-02 21:46:46 · 1188 阅读 · 0 评论 -
『MySQL』SQL之子查询(3)
一.连接远程服务器数据库原创 2019-04-03 09:09:05 · 324 阅读 · 0 评论 -
『python』项目实践-用户消费行为分析
数据集简介数据集来源于CDnow零售网站的用户消费购买行为,数据集一共包含四个字段:user_id,购买日期,购买数量和购买金额。属于非常典型的消费行为数据集。...原创 2019-06-03 16:59:07 · 1610 阅读 · 1 评论 -
『SQL』案例实战-经营分析周报
对于零售行业来说:改动:销售量改为销售金额。说明:客流量用小票数量来衡量。一、连接数据库打开DBeaver 。类似MySQLWorkbench。 DBeaver 是一个通用的数据库管理工具和 SQL 客户端(客户端可以连接很多远程服务器),支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其...原创 2019-06-24 15:39:52 · 1279 阅读 · 0 评论