数据分析
Cara_Lee_
To be a better me.
展开
-
数据分析 Excel篇(一):常用技巧与数据的收集和清洗
数据分析 Excel篇(一):常用技巧与数据的收集和清洗一、 简单技巧1. 巧用定位条件(开始-查找和选择-定位条件)可以批量选中错误单元格、空单元格等,选中后输入替换值Ctrl+Enter全部填充。2. 选择性粘贴(开始-粘贴-选择性粘贴)可以进行运算,eg. 实现“金额”数据列数据增加25%。可以构造辅助列,结合选择性粘贴的跳过空单元格,实现将两列数据合并为一列。通过选择性粘...原创 2019-07-13 17:57:28 · 1768 阅读 · 0 评论 -
数据分析 Excel篇(二):常用函数
一、 数学函数INT() 取整返回小于等于给定数值的最大整数MOD() 求余数ROUND() 四舍五入 =(数值,保留小数个数)ROUNDDOWN 向下取整ROUNDUP 向上取整ABS() 取绝对值SQRT() 算术平方根RAND() 生成[0,1)范围的随机数RANDBETWEEN() 生成指定范围内的随机数(包含左右临界值)二、 文本函数MID()...原创 2019-07-18 09:34:06 · 231 阅读 · 0 评论 -
商业智能案例分享——汽车市场行业分析仪表板
一、案例背景许多朋友在首次购车时,一般会比较纠结自己该如何选车,用什么标准选车。因此从购车人角度制作了一个仪表板,来辅助购车人高效做出决策。二、仪表板1、每个人购买倾向不同,所以应该提供给他们更多选择自由度。因此在仪表板上方设置了多个卡片图切片器,包括价格档、车系、车类、品牌、级别、车型等2、柱形图和切片器配合,展示了规模和销量各自的信息。规模:每个车型规模和总车型平均规模之间的对...原创 2019-09-13 15:53:32 · 975 阅读 · 0 评论 -
Python机器学习——KNN算法
1、底层算法import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#先随机设置十个样本点表示十杯酒rowdata = {'颜色深度':[14.23,13.2,13.16,14.37,13.24,12.07,12.43,11.79,12.37,12.04], '酒精浓度':[5.64,...原创 2019-09-13 18:26:01 · 427 阅读 · 0 评论 -
Python机器学习——决策树
一、香农熵import numpy as npimport pandas as pd# 定义熵函数def calEnt(dataset): n = dataset.shape[0] #数据集总行数 i = dataset.iloc[:,-1].value_counts() #标签的所有类别 p = i/n ...原创 2019-09-14 20:17:35 · 354 阅读 · 2 评论 -
泰坦尼克号幸存者预测
泰坦尼克号的沉没是世界上最严重的海滩事故之一,通过模型来预测哪些人可能成为幸存者。1、导入基本所需的库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsplt.style.use('fivethirtyeight')...原创 2019-09-15 15:04:49 · 3055 阅读 · 2 评论 -
保险行业数据分析——用户画像 精准营销
一、产品介绍针对65岁以上的人群推出的医疗附加险,销售渠道为直邮。二、商业目的针对保险公司的健康险产品的用户数据,制作用户画像,找出最具有购买倾向的人群以进行精准保险营销。三、分析流程1 导入数据,观察数据···了解数据样本和特征个数、数据类型、基本信息等df.shapedf.dtypes# 将ID转换成objectdf['KBM_INDV_ID'] = df['KBM_IND...原创 2019-09-15 16:51:15 · 15456 阅读 · 7 评论 -
Tableau可视化——超市常见问题分析
一、 分析场景: 作为超市的运营分析人员, 必须了解数据, 现实中关于零售部门常见的问题:• 销售额在增长, 但是利润并没有• 提出的问题: 哪一部分导致的问题?• 问题出现在哪类产品中?• 全国性超市, 是地域性问题?• 时间维度上的参考?二、对数据做进一步描述性和探索性分析1 按类别分析2 其中桌子类问题显著, 需要提取出来, 尝试区域性分析可以看到华东地区尤其差再从...原创 2019-09-17 11:21:43 · 2856 阅读 · 2 评论