- 博客(58)
- 资源 (1)
- 收藏
- 关注
原创 python数据分析实战之超市零售分析
文章目录1、明确需求和目的2、数据收集3、数据预处理3.1 数据整合3.1.1 加载相关库和数据集3.1.2 数据概览3.2 数据清洗3.2.1 列名重命名3.2.2 数据类型处理3.2.3 缺失值处理3.2.4 异常值处理3.2.5 重复值处理4、数据分析4.1 整体销售情况分析4.1.1 销售额分析4.1.2 销量分析4.1.3 利润分析4.1.4 客单价分析4.1.5 市场布局分析4.2 商品情况分析4.3 用户情况分析4.3.1 不同类型的客户占比4.3.2 客户下单行为分析4.3.3 RFM模型
2020-05-17 20:09:17
26117
47
原创 python数据分析实战之电商交易分析
文章目录1、明确需求和目的2、数据收集3、数据预处理3.1 数据整合3.1.1 加载相关库和数据集3.1.2 数据概览3.2 数据清洗3.2.1 缺失值处理3.2.2 异常值处理3.2.3 多余记录的删除3.2.4 重复值的处理4、数据分析4.1 总体情况分析4.2 各维度分析5、总结1、明确需求和目的通过以往的电商交易历史数据,分析商品销售的总体情况以及不同维度下的销售情况。2、数据收集数据集为某电商平台2016年一整年的交易数据, 数据包含104557条数据,10个字段。除此之外,还有一
2020-05-10 21:20:40
6569
74
原创 Hive SQL数据分析实战(一)
有以下几张数据表,请写出Hive SQL语句,实现以下需求。注:分区字段为dt,代表日期。1、某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。参考实现:选出城市在北京,性别为男的10个用户名select user_name from user_info where city='beijing' and sex='male' limit 1...
2020-05-09 22:58:30
1877
原创 Hive SQL数据分析实战(三)
有以下几张数据表,请写出Hive SQL语句,实现以下需求。注:分区字段为dt,代表日期。1、对2018年公司的支付总额按月度累计进行分析select a.month, a.pay_amount, sum(a.pay_amount) over(order by a.month)from (select month(dt) month, sum...
2020-05-09 22:58:16
1300
原创 Hive SQL数据分析实战(二)
有以下几张数据表,请写出Hive SQL语句,实现以下需求。注:分区字段为dt,代表日期。1、某年度对用户满意度进行调研分析,找出目标人群。参考实现:找出2019年购买商品后又退款的用户select a.user_namefrom (select distinct user_name from user_trade where yaer(dt)=2019)...
2020-05-09 22:57:58
1021
原创 python数据分析实战之信用卡违约风险预测
文章目录1、明确需求和目的1.1 比赛目的1.2 Home Credit介绍2、 数据收集3、数据预处理3.1 数据整合3.1.1 加载相关库和数据集3.1.2 主要数据集概览3.2 数据清洗3.2.1 多余列的删除3.2.2 数据类型转换3.2.3 缺失值处理3.2.4 异常值处理3.2.5 重复值处理4、数据分析4.1 相关系数分数5、模型训练5.1 数据标准化5.2 使用逻辑回归训练5....
2020-05-07 23:55:44
12101
9
原创 python数据分析实战之阿里巴巴股票行情分析
文章目录1、明确需求和目的2、数据收集3、数据预处理3.1 加载相关库和数据集3.2 数据概览3.3 数据格式处理3.4 缺失值处理4、数据分析4.1 股票K线图4.2 涨跌情况分析5、股票交易策略5.1 制定策略5.2 盈利情况分析1、明确需求和目的分析阿里巴巴近三年的股票数据,看看涨跌情况如何。制定股票交易策略,分析盈利情况。2、数据收集数据来源于阿里巴巴股票历史数据网站:h...
2020-05-04 11:51:41
3069
5
原创 python数据分析实战之客户还款能力预测
文章目录1、明确需求和目的2、数据收集3、数据预处理3.1 数据整合3.1.1 加载相关库和数据集3.1.2 数据总体概览3.2 数据清洗3.2.1 多余列的删除3.2.2 确定数据集的标签3.2.3 缺失值的处理3.2.4 数据类型转换3.2.5 重复值处理4、模型训练4.1 使用逻辑回归训练4.2 使用KNN训练5、总结1、明确需求和目的客户向P2P平台申请贷款时,平台会通过线上或线下的...
2020-05-02 19:39:03
4613
12
原创 python数据分析之K-Means(K均值算法)实践
文章目录1、监督学习和无监督学习1.1 监督学习1.2 非监督学习2、聚类3、K-Means算法3.1 算法步骤3.2 算法优化目标3.3 算法优缺点3.4 K-Means实践4、K-Means++算法4.1 算法步骤4.2 K-Means++实践5、Mini Batch K-Means5.1 算法步骤5.2 Mini Batch K-Means实践6、确定合适的K值1、监督学习和无监督...
2020-05-01 18:07:29
4472
3
原创 python数据分析之决策树实践
文章目录1、信息熵1.1 信息熵公式1.2 概率分布与信息熵2、决策树2.1 决策树概念2.2 决策树预测原理3、分类决策树3.1 信息增益3.2 训练规则3 分类决策树示例4、不纯度度量标准5、决策树算法5.1 ID35.2 C4.55.3 CART6、回归决策树7、决策树实践7.1 分类决策树实践7.2 回归决策树实践1、信息熵信息熵,用来描述系统信息量的不确定度,不确定性越大,则信息...
2020-04-30 22:11:10
1531
原创 python数据分析之朴素贝叶斯实践
文章目录1、概率基础1.1 随机事件1.2 样本空间1.3 概率1.4 联合概率1.5 条件概率1.6 独立性1.7 先验概率与后验概率2、 全概率公式3、贝叶斯公式4、 朴素贝叶斯算法4.1 算法原理4.2 平滑改进4.2 算法优点5、 常用朴素贝叶斯5.1 高斯朴素贝叶斯(连续变量&正态分布)5.2 伯努利朴素贝叶斯(离散变量&二项分布)5.3 多项式朴素贝叶斯(离散变量...
2020-04-25 23:09:40
1697
原创 python数据分析之KNN(K近邻算法)实践
文章目录1、KNN概述2、KNN算法步骤3、算法超参数3.1 K值3.2 K值的取值方式3.3 距离度量方式3.4 权重计算方式4、KNN算法分类实践4.1 自定超参数4.1 超参数调整5、KNN算法回归实践5.1 常规数据5.2 数据标准化5.3 流水线优化1、KNN概述KNN(K-Nearest Neighbor),即K近邻算法。K近邻就是K个最近的邻居,当需要预测一个未知样本的时...
2020-04-25 16:59:54
4063
2
原创 python数据分析之分类模型评估实践
文章目录1、混淆矩阵2、分类模型评估指标2.1 正确率2.2 精准率2.3 召回率2.4 F13、ROC曲线4、AUC1、混淆矩阵混淆矩阵:用来评估模型分类的正确性,该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果数量。真正例(True Positive):预测值为正例(Positive),预测结果正确(True),即实际值为正例。假正例(False Positive):预测值为正例...
2020-04-25 11:03:41
1398
原创 python数据分析之逻辑回归实践
文章目录1、逻辑回归简介2、sigmoid函数3、损失函数4、二分类逻辑回归5、多分类逻辑回归1、逻辑回归简介逻辑回归,实际上不是一个回归算法,而是一个分类算法,应用于对样本数据进行分类的场景中。逻辑回归的分类思想是:将每个样本进行”打分“,设置一个阈值,样本达到这个阈值的,分为一个阈值;没有达到这个阈值的,分为另外一个类别。逻辑回归的算法模型与线性回归类似,不过它是在线性回归...
2020-04-23 22:18:43
1446
原创 python数据分析实战之AQI预测
文章目录1、加载相关库和数据集2、数据处理和转换2.1 简单的数据处理2.2 数据转换3、建立基模型4、特征选择4.1 RFECV4.2 使用RFECV进行特征选择5、异常值处理5.1 使用临界值进行填充5.2 分箱离散化6 、残差图分析6.1 异方差性6.2 离群点前言:上一篇对AQI进行了分析,这一篇根据对以往的数据,建立一个模型,然后将这种模型应用于未知的数据,来进行AQI的预测。1、...
2020-04-21 23:51:08
1530
原创 python数据分析实战之AQI分析
1、数据分析的基本流程明确需求和目的数据收集(内部数据、购买数据、爬取数据、调查问卷、其它收集)数据预处理(数据整合、数据清洗、数据转换等)数据分析(描述分析、推断分析、数据建模、数据可视化等)编写报告2、明确需求和目的AQI:空气质量指数,用来衡量空气清洁或污染的程度,值越小,表示空气质量越好。2.1 需求和目的运用数据分析的相关技术,对全国城市空气质量进行研究和分析,...
2020-04-19 16:36:46
2725
原创 python数据分析之线性回归实践
1、模型可以将模型理解为一个函数(一种映射规则),由训练数据来确定函数的参数,当参数确定好之后,我们就可以利用该模型对未知的数据进行求值。输入模型的数据,称为训练数据。我们使用样本数据训练模型,数据中的每个属性,我们称为特征(习惯用x表示)。每条数据的目标输出值,我们称为标签(习惯用y表示)。2、回归分析回归分析是用来评估变量之间关系的统计过程用来解释自变量X与因变...
2020-04-19 10:33:33
1173
原创 python数据分析之假设检验实践
1、背景假设某公司生产一件商品,商品的重量是一个随机变量,它服从正态分布。当机器运转正常时,其均值为0.5kg,标准差为0.015。现随机抽查9件商品,重量(单位为kg)分别 0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515,请根据这些数据判断机器运转是否正常?这个问题我们可以使用参数估计中置信区间的知识来进行求解:i...
2020-04-17 23:25:33
1317
原创 python数据分析之参数估计实践
1、加载相关库和数据集使用的库主要有:pandas、numpy、sklearn、matplotlib、seaborn使用的数据集:sklearn库中的鸢尾花数据集import pandas as pdimport numpy as npfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltimpo...
2020-04-12 21:13:41
1727
原创 python数据分析之描述性统计实践
1、加载相关库和数据集使用的库主要有:pandas、numpy、sklearn、matplotlib、seaborn使用的数据集:sklearn库中的鸢尾花数据集import pandas as pdimport numpy as npfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltimpo...
2020-04-12 16:28:34
2095
原创 Hive知识之行列转换
1、行转列假设有如下 student 表:表1classname1001‘mike’, ‘lucy’,‘peter’1002‘james’,‘david’希望得到如下结果:表2classname1001mike1001lucy1001peter1002james1002david此类场景就属于...
2020-04-12 10:33:34
384
原创 Hive知识之GROUPING运算符
前言:Hive的GROUPING运算符和SQL语句非常类似,如果有SQL基础,学习Hive的GROUPING运算符会比较容易。可参考SQL的GROUPING运算符:https://blog.csdn.net/weixin_42384784/article/details/1054625261、GROUPING运算符GROUPING运算符主要包括 GROUPING SETS()、CUBE、...
2020-04-12 08:54:24
1763
原创 SQL知识之GROUPING运算符
1、GROUPING运算符GROUPING运算符主要包括 GROUPING SET()、CUBE、ROLLUP2、GROUPING SET()假设有如下student表:+-----+-------+------+---------------------+-------+------+| sno | sname | ssex | sbirthday | clas...
2020-04-11 23:47:39
777
原创 Hive知识之优化技巧
1、用GROUP BY替换DISTINCT去重在极大的数据量且有很多重复值时,可以先 GROUP BY 去重,再使用 COUNT()计数,效率要高于 COUNT(DISTINCT)去重字段的重复值时,使用 GROUP BY 效率也会比 DISTINCT 高SElECT user_nameFROM tradeGROUP BY user_name;2、使用MAPJOINHSQL中...
2020-04-11 20:40:02
794
原创 Hive知识之窗口函数
前言:Hive的窗口函数和SQL语句非常类似,如果有SQL基础,学习Hive的窗口函数会比较容易。1、窗口函数的简单介绍窗口函数即 Window Function,又称为分析函数。窗口函数与聚合函数类似,但是每一行数据都生成一个结果。聚合函数可以将多行数据按照规定聚合为一行,一般来说聚合后的行数要少于聚合前的行数,但是有时我们想要既显示聚合前的数据,又要显示聚合后的数据,这时便引入了窗口...
2020-04-11 17:42:24
716
原创 SQL知识之窗口函数
前言:窗口函数属于SQL的高级查询功能,有些数据库的低版本可能还不支持,如MySQL5.7版本暂不支持,SQL Server是支持的。1、窗口函数的简单介绍窗口函数即 Window Function,也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。窗口函数与聚合函数类似,但是每一行数据都生成一个结果。聚合函数可以将多行数据按照规...
2020-04-11 17:38:36
902
原创 Hive知识之常用函数
前言:Hive的常用函数和SQL语句非常类似,如果有SQL基础,学习Hive的常用函数会比较容易。可参考SQL的常用函数:https://blog.csdn.net/weixin_42384784/article/details/1054202561、查看函数查看所有函数:show functions;查看函数的使用方法:desc function extended 函数名...
2020-04-11 15:24:30
452
原创 Hive知识之内外部表和分区表
1、内外部表CREATE [external] TABLE IF NOT EXISTS 表名.......创建数据表可以通过 external 指定创建外部表,如果不指定则默认是内部表1.1 内部表(也叫管理表)内部表数据由Hive自身管理,内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse)当删除一个内...
2020-04-11 11:14:36
511
原创 Hive知识之Hive基础
1、Hive简介Hive是基于Hadoop的开源的数据仓库工具,用于处理海量结构化数据Hive把HDFS中结构化的数据映射成表Hive通过把HiveSQL进行解析和转换,最终生成一系列在Hadoop上运行的MapReduce任务,通过执行这些任务完成数据分析和处理2、Hive与传统关系型数据库的比较项目HiveRDBMS查询语言HQLSQL数据存储H...
2020-04-11 09:52:40
790
原创 Hive知识之连接查询
前言:Hive的查询语句和SQL语句非常类似,如果有SQL基础,学习Hive的查询语句会比较容易。可参考SQL的连接查询:https://blog.csdn.net/weixin_42384784/article/details/1053339511、UNION ALL和UNION联合的字段名称和字段顺序需要一致没有连接条件,只是数据叠加UNION后的表作为子查询时,需要进行重命名...
2020-04-09 22:31:52
613
原创 Hive知识之基本查询
前言:Hive的查询语句和SQL语句非常类似,如果有SQL基础,学习Hive的查询语句会比较容易。可参考SQL的基本查询:https://blog.csdn.net/weixin_42384784/article/details/1053318261、简单查询SELECT … FROM … WHERE …需要注意的是,如果该表是一个分区表,则WHERE条件里必须对分区字段进行筛选...
2020-04-09 21:41:37
504
2
原创 SQL知识之常用函数
1、聚合函数函数名描述COUNT()统计表中记录的条数,即行数AVG()计算字段的平均值SUM()计算字段的总和MAX()计算字段值的最大值MIN()计算字段值的最小值COUNT(*),统计所有的记录,包括NULL值COUNT(field),统计指定字段的记录,不包括NULL值其余几个函数,都是根据具体字段进行统计,都会忽略NUL...
2020-04-09 21:18:32
429
原创 SQL知识之SQL语句执行顺序
1、 SQL语句书写顺序SELECT..DISTINCT...FROM...JOIN...ON...WHERE....GROUP BY....HAVING....ORDER BY....2、 SQL语句执行顺序FROM..ON...JOIN....WHERE...GROUP BY.....HAVING...SELECT..DISTINCT..ORDER BY....FROM:从哪张...
2020-04-09 00:15:08
392
原创 Hive知识之Hadoop简介
1、Hadoop的基本介绍Hadoop是Apache旗下的一个分布式计算开源框架,基于JAVA语言,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop的核心组件:HDFS、MapReduce、YarnHadoop是云计算的PaaS层的解决方案之一,并不等同与PaaS,更不等同于云计算本身。Hadoop可应用于数据服务基础平台建设、用户画像、网站点击流、数据挖掘等方面。...
2020-04-07 21:58:07
409
原创 SQL知识之索引
本文以MySQL为例,记录一下SQL关于索引的一些知识。1、索引的定义索引类似于字典中的拼音目录,可以快速检索到数据,它是一种存储引擎级别的实现方式。2、 索引方式MySQL数据库中常用的索引方式为B+树索引,而B+树索引可以分为聚集索引(聚簇索引)和非聚集索引(非聚簇索引)。2.1 聚集索引聚集索引:索引项的排序方式和表中数据记录排序方式一致的索引(如字典的拼音目录就是聚集索引,它...
2020-04-06 11:42:11
479
原创 SQL知识之子查询
1、子查询的定义当一个查询是另一个查询的条件时,这个查询称为子查询。当查询需求比较复杂,一次性查询无法得到结果,需要进行多次查询时,就可以使用子查询。子查询一般分为WHERE子句子查询和FROM子句子查询WHERE 子句子查询:该位置的子查询一般返回单行单列、单行多列、多行单列数据FROM 子句子查询:该位置的子查询一般返回多行多列数据,可以当做一张临时表2、WHERE 子句子查询...
2020-04-06 08:13:59
1294
原创 SQL知识之多表查询
1、表的并集(UNION)UNION用于把许多SELECT语句的结果组合到一个结果集合中,也叫联合查询。在多个SELECT 语句中,第一个SELECT语句中使用的字段名将作为结果集合的字段名。使用 UNION 会将重复的记录进行剔除,而使用 UNION ALL 会将所有记录返回,效率高于UNION,所以一般先去重再使用 UNION ALL 进行联合查询可提高效率。联合查询是行数的叠加,...
2020-04-05 21:28:27
487
原创 SQL知识之单表查询和分组聚合
1、简单查询SELECT * FROM user_info; # 查询所有字段SELECT id,name FROM user_info; # 查询指定字段SELECT DISTINCT name FROM user_info; # DISTINCT,去除重复数据SELECT name, salary*2 FROM user_info; # ...
2020-04-05 19:30:06
953
原创 SQL知识之数据库基础
1、基本概念数据库:将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。数据库管理系统(DBMS):用来管理数据库的计算机系统DBMS分类:关系型数据库(MySQL、SQL Server等),非关系型数据库(ManogDB等)表:用来管理数据的二维表,由行和列组成。列:表的列(垂直方向)称为字段,代表了保存在表中的数据项目。行:表的行(水平方向)称为记录,相当于一条数据...
2020-04-05 11:47:57
465
原创 SQL每日一练(三)
每一章包含10道题,持续更新中…1、有如下test 表,写出查询语句,得到如下结果。表test:对于上述例子数据,结果为:解题思路:(1)按照 id 进行分组求和,得到 B(2)原表和(1)进行联结,即可得到答案。参考实现:SELECT a.id, a.A, b.BFROM test aJOIN(SELECT id, SUM(A) as BFROM test...
2020-04-04 21:45:14
565
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人