python 数据分析
文章平均质量分 50
Deep,dark,fantasy
我想一直走在数据分析的路上
展开
-
数据分析 --- 数据可视化需要注意的问题
一、可视化数据的思路明确分析结论将分析过程用文字表述将文字转化为图表检查、调整图表展示图表二、可视化的本质和好处本质:将分析的结论用简洁直白的方式展现出来,突出分析结论的重点,不应过分追求华丽。好处:使观看者对业务信息接受更快有利于沟通更好的连接运营与业务三、数据形象化指标值形象化对数据指标值用图形的方式展现,并进行视觉优化,如使用三维立体图形通过构建场景来表现前提是要把握数据之间的内在联系,如简单到复杂、从前到后等,可以使用阶梯式(如受教育的程度)、领奖台式原创 2021-03-23 21:10:02 · 2860 阅读 · 0 评论 -
数据分析 --- 数据分析的误区
在数据分析的过程中,我们难免会走一些弯路,但有些弯路是可以避免的,下面我将介绍几个数据分析过程中常见的误区:一、 选取的样本容量有误我们一定都听说过二战中的一个经典示例:军方为了提高战斗机飞行员的生还率,打算在飞机上增加装甲的厚度,但不能在所有部位加厚,这样会丧失战机的灵活性,于是军方请了统计学家来研究,这些专家在一开始就只统计了战斗回来的战机,研究这些战机上的弹孔的分布,在弹孔比较密集的地方增厚装甲,但这并没有提高飞行员的生还率,后来有人想明白了这个问题,那就是应该研究没有回来的飞机,它们中弹的地方原创 2021-03-21 21:33:16 · 315 阅读 · 0 评论 -
数据分析 --- 如何分析数据
数据分析常用分析方法基本分析法基本思想:从宏观角度对企业的发展概况进行预估三个部分:1.宏观因素分析分析本行业的行情,本行业各个企业的分布状况,以及各企业的经营模式,对行业的基本状况有所了解2.变动趋势分析分析这个行业的历史变动情况,最近的变动情况,以及各分布区域的变动情况,得到此行业的变动趋势,把握未来3.变动原因分析产销情况对比,国内外现状对比,同行业不同企业情况对比对引起变动的相关因素和可能相关因素进行分析,得到这个行业的变动原因,在此基础上,对企业的下一步计划进行调整高级原创 2021-03-20 21:00:11 · 272 阅读 · 0 评论 -
数据分析 --- 如何处理脏数据
一、脏数据种类:缺失数据:可以通过填充平均值、按比例填充随机数等方法处理,若有备份数据,直接将备份数据引入即可重复数据:去除重复部分即可错误数据:可以通过以下三种方式解决:1.通过对数据区间进行限定,排除明显异常的数据2.通过系统的内部逻辑结构查找不符合格式的数据3.通过建立匹配规则,匹配不统一的数据不可用数据:正确,但无法直接使用,可以通过文本函数将其进行拆分(如日期数据)二、脏数据的常规处理方法结构化需要对数据进行缩减,将其变为可测量、可分析的结构如将用户评论中的好、原创 2021-03-19 20:54:25 · 11130 阅读 · 0 评论 -
数据分析 --- 收集数据的技巧
一、要充分理解收集数据的目的在进行数据法分析之前,一定要明确要对什么进行数据分析,为什么要数据分析,怎样分析,这是一切分析工作的源头。可以使用的方法:逻辑树逻辑树的主要思想:将问题分层罗列,对问题进行分层,逐步向下扩展。逻辑树的原则需要将相关问题归结为一类问题需要将各要素归结为一个完整框架,不能有重复或遗漏之处各要素之间应当有一定的联系,不能出现孤立要素例:问题:提升利润增速可以拆解为三个方面的问题:收入、成本、价格收入可以拆解为:主营业务收入状况、营业外收入状况等成本可以拆解为:原创 2021-03-15 18:33:59 · 1461 阅读 · 2 评论 -
数据分析 --- 收集数据的原则
一、 数据必须真实一份真实的数据可以带来以下收获:定位用户需求通过问卷调查、抽样调查获取的数据是有限的,并且有时也不能够保证真实性,因此可以通过技术手段对网站进行埋点,获得用户的行为模式,购买记录、搜索习惯等这些都是用户自己产生的,可以保证数据的真实性,从而定位用户的真实需求。帮助企业获得广告收益通过真实数据,分析目标客户,将广告在合适的时间点投放到恰当的客户的屏幕前,从而加强广告的转化率和传播率及时发现自身的不足之处通过真实的数据可以看到企业在哪个方面做的不够好,从而计师调整原创 2021-03-15 16:36:43 · 2415 阅读 · 0 评论 -
数据分析 --- 如何收集数据
一、收集数据过程中常见的问题拿到一堆数据不知道怎样分析解决思路:可以从数据使用者的角度出发,得到数据分析的切入点。二、 收集数据之前应当明确的问题:1.为什么要做这项数据分析要明确分析的是哪方面的数据,客户想了解的是哪方面的数据。如客户想知道商品的定价是否合理,就应收集本公司的商品价格数据,同时也要收集同行业其他公司的价格数据以及相关行业的价格数据,对客户进行调查,以确定商品定价是否在合理范围内。2.数据从哪里来应当在收集数据之前考虑采用什么样的途径收集数据,才能使收集的数据全面、准确应当原创 2021-03-14 18:03:43 · 2758 阅读 · 0 评论 -
数据分析 --- 如何确定使用什么类型的图表
一、普遍的思路明确要解决的问题,确定数据分析目标。提炼数据,确定数据分析的指标,对数据进行预处理选择合适的图表类型二、一个例子以分析数据分析岗位的人才需求为例第一步 根据招聘数据,明确分析目标在拿到招聘数据之后,可以从四个方面去考虑:(1)近几年的职位需求量(2)职位需求量是上升趋势还是下降趋势(3)数据分析岗位有哪些细分的职位(4)这个岗位需要哪些技能第二步 确定分析维度可以从三个方面去考虑:(1)宏观上:数据分析职位需求量。(2)外部需求:职位类型、需要掌握的技能原创 2021-03-07 22:46:06 · 489 阅读 · 0 评论 -
数据分析 --- 可视化图表
一、可视化的目的数据可视化,其目的在于检查异常数据,将数据转化为信息,显示某项活动的趋势,为查看数据背后的特殊现象提供有效的方法。二、常见的可视化工具Excel是最常用的可视化工具,操作简单,只需将图表插入到单元格中即可显示出来,并且还可以根据需要添加一些辅助项,使图表更加易懂。PowerBI / TableAU目前在市面上有很多同种类型的数据可视化工具,它们都有一些共同的特点:(1)上手快,可以支持多种数据源对数据进行导入;(2)可以在不改变原数据的情况下对数据进行预处理;(原创 2021-03-07 21:53:44 · 1306 阅读 · 0 评论 -
python数据分析2------CSV文件
一、创建CSV文件1)打开记事本,原创 2021-03-07 20:46:13 · 299 阅读 · 0 评论 -
EXCEL基本功能 --- 数据透视表
一、数据透视表的作用数据透视表,可以通过对数据的处理,相关性分析,可快速进行数据分析汇总,为洞察结论做铺垫。二、数据透视表的操作以某品牌分店3月销售商品数据表为例,统计各商品及各分店的销售总额第一步首先任意选中一个有数据的单元格,点击菜单栏“插入”-“数据透视表”。此处的区域会自动选择,不需要修改,点击“确定”;如下图第二步将“商品”字段拖进“行区域”,“分店”字段拖动至“列区域”,“总金额”字段拖进“值区域”。此时可看到工作表已自动算出各商品及各分店的销售总额。其中原创 2021-03-07 20:39:36 · 8969 阅读 · 2 评论 -
EXCEL基本功能 --- 三种常用的查找与引用函数
一、查找与引用函数的作用可以使用查找与引用函数将列的值按字典表进行填充二、三种常用的查找与引用函数LOOKUP函数作用返回向量或数组中的数值。函数 LOOKUP 有两种语法形式:向量和数组。提示 :LOOKUP矢量 的数值必须按升序排序:…、-2、-1、0、1、2、…、A-Z、FALSE、TRUE;否则,函数LOOKUP 不能返回正确的结果。文本不区分大小写。一、向量形式向量为只包含一行或一列的区域。函数 LOOKUP 的向量形式是在单行区域或单列区域(向量)中查找数值。然后返回第原创 2021-03-07 16:59:01 · 6743 阅读 · 0 评论 -
Excel基本功能 --- 条件聚合函数
一、定义条件聚合函数就是对符合特定条件的数据项进行统计。如对冬装进行统计,首先需要在表格中有衣服类别列,以标识衣服是冬装还是夏装;其次需要有数量列,以便于计算冬装有多少件;最后,需要新增一列,使用函数进行条件聚合,计算出冬装或其他类型服装的数量,这就是条件聚合函数的作用。二、聚合函数的类型SUMIF函数作用根据指定条件对若干单元格求和。语法SUMIF(range,criteria,sum_range)Range 为用于条件判断的单元格区域。Criteria 为确定哪些单元格将被相原创 2021-03-07 13:23:06 · 8699 阅读 · 0 评论 -
EXCEL基本功能 --- 逻辑函数
一、逻辑函数的定义就是根据条件,能明确的用True 或 False 这两种值,来表示数据值是否符合条件的函数。二、 逻辑值的运算包括以下三种:与运算可以使用AND或&表示,就是判断两个数据是否存在交集,当两个数据都符合条件时返回True,有一个数据不符合条件返回False。或运算可以使用OR或 || 表示,判断两个数据中是否有符合条件的数据,当两个数据都符合条件时返回True,有一个数据符合条件返回True。非运算可以使用NOT 或 !表示,非运算就是取反,当条件为真时原创 2021-03-06 23:05:25 · 1248 阅读 · 0 评论 -
EXCEL基本功能 --- 文本函数
一、函数与文本函数函数:描述输入输出关系并实现这种计算关系的公式,如最简单的一元一次函数y=kx+b,输入x,就会输出相应的y,y的值是通过函数进行计算得到的。文本函数:对文本进行提取、查找、转换和更新的函数二、常用的文本函数MID函数:从文本字符串中指定位置开始,返回指定长度的字符串。操作流程:(1)点击公式-文本(2)点击MID函数(3)输入相关的参数(4)结果SUBSTITUTE函数:将字符串中部分字符替换为新字符串。操作流程:(1)点击公式-文本(2)点击S原创 2021-02-27 00:42:59 · 1834 阅读 · 0 评论 -
Excel基本功能
一、数据预处理包括四种工具:文本函数:对文本进行提取查找、转换、更新的函数重复项:对数据进行去重分列:拆分列数据数据排序与筛选:可以对数据进行排列和筛选二、核心函数库:统计包括四种函数:数学函数:SUM、AVERAGE,对数据进行计算逻辑函数:OR、NOT,对数据进行判断条件聚合函数:COUNT、SUMIF,对数据进行有条件的聚合引用函数:LOOKUP,从单行或单列或数组中查找一个值三、分析数据透视表、图表...原创 2021-02-26 20:22:52 · 1590 阅读 · 0 评论 -
数据分析 --- 数据分析的流程
做每一件事,都需要一定的流程,数据分析也不例外。下面,我将从我理解的角度介绍数据分析工作具体需要哪些工作流程:一、目标确定在数据分析之前,我们需要明确我们要解决什么问题,要达到什么目的,只有明确了目标,我们才能进行下面的工作。我们还要明确分析方式,我们是对现有情况进行分析,也就是描述性分析,还是基于现状,预测未来的情况,也就是预测性分析,这两种分析方式决定了我们接下来的工作步骤。二、数据获取在这一步我们需要进行字段设计,也就是根据第一步的目标确定到底要分析哪些指标,并确定相应的字段,以便进行分析。原创 2021-02-26 19:41:16 · 3582 阅读 · 4 评论 -
数据分析 --- 判定、处理异常值
一、为什么会有异常值异常值的产生大概可以分为以下三种情况:在录入数据的过程中产生了错误。在处理数据的过程中对数据错误添加。这些异常值是正确的并且真实存在的。二、如何处理异常值对于第一种录入错误,我们只需将其修改正确即可。对于第二种处理错误,可以将其删除,也可以填充空值或填充样本均值。对于正确且真实存在的异常值,我们可以根据实际情况调整数值并乘以需要调整的比率。...原创 2021-02-26 18:56:08 · 1523 阅读 · 1 评论 -
数据分析 --- 识别异常值
一、异常值的定义与平均值相差极大或极小的值,也叫离群点。异常值的判定要取决于分析的业务对象,如旅游业这种周期性产业。二、识别异常值观察检测值与整体数据的差异度,如计算与平均值的倍数。若异常值是合理的,那么其一定有其附加信息,也就是数据变动的原因,我们要对异常值产生的原因进行分析,以发现数据背后的现象。...原创 2021-02-26 18:45:24 · 810 阅读 · 0 评论 -
统计指标 --- 数据分布形态
一、意义数据分布形态,是指图表化数据后呈现的形态,有助于我们更好的理解数据的特征二、分类数据分布形态包括左偏分布、右偏分布、正态分布左偏分布:数据沿着x轴逐渐增大的趋势,如坚持努力学习后每次的考试成绩、人类的死亡年龄、资产的变化情况。右偏分布:数据沿着x轴逐渐减小的趋势,如人的运动能力,药物的有效性正态分布:数据集中分布于中间,两边较少,如人类的身高或体重、考试成绩的分布三、总结...原创 2021-02-23 00:13:25 · 10372 阅读 · 0 评论 -
统计指标 ---离散趋势指标
一、作用离散趋势体现了数据内部水平差异二、分类集中趋势指标包括极差、平均差、标准差极差:相距最远的两个点之间的距离,体现数据内部最大差异状况。平均差:一组数据各项与平均值之间的平均差异。平均差=(每个数据项-均值)后相加除以数据项的个数,平均差越大,数据越分散,对于事件驱动型数据,在样本量较小的时候容易导致误差,平均差对离散值更敏感。标准差:是优化后的更能代表离散程度的指标,能更直观的了解差异程度,是最常用的离散指标。标准差=(每个数据项-均值)平方后相加除以数据项的个数再开二次方三、总结原创 2021-02-22 23:20:26 · 6358 阅读 · 0 评论 -
统计指标 --- 集中趋势
一、作用集中趋势体现了数据的一般水平,可以用来快速了解样本数据的概况。二、分类集中趋势指标包括平均值、中位数、众数平均值:是最常用的集中趋势指标,但有弊端,单纯的计算平均值具有一定的误导性,对异常数据不敏感。中位数:按顺序排列后,位于中间的数。总数为偶数的数据的中位数为最中间的两个数相加除以二,中位数在这组数据中更具有代表性众数:出现次数最多的数值,反映的是局部特征密集度,众数可以有多个三、总结...原创 2021-02-22 22:56:38 · 5570 阅读 · 0 评论 -
统计指标
一、统计概念:体现总体数量特征的概念和数值特点:根据数据分析目的的不同,统计指标也会发生变化二、统计指标的分类统计指标可分为:总量指标、平均指标、相对指标总量指标:就是特定条件下的总规模、总水平或总工作量,是一种最基本的统计指标。平均指标:就是某项数据平均值,显示了这项数据的一般水品,体现了数据的集中趋势。相对指标:是两个有联系的现象数值相比得到的比率,描述的是数值之间的相互关系而不是总体情况。具体包括比例、比率、倍数三种。类型计算方法意义举例比例各数据/总值原创 2021-02-21 22:13:28 · 1729 阅读 · 0 评论 -
数据、数据的分类
一、 数据是什么数据,是对事物的记录与描述。如气温,描述了当天的温度,让我们可以参考当天的气温决定今天穿什么;又如时间,作为一种尺度,标记了万事万物的活动,这些都是数据,可见数据是十分重要的。二、数据的特性我们可以将数字分为两种数据:1、定性数据:是文字性数据,如学号、身份证号等,无法计算比较,计量层次低。2、定量数据:是数字型数据,如汽车里程、消费金额等,可以进行计算比较,计量层次高。这两种数据也可以继续细分:如下图所示三、数据矩阵/二维数据表如EXCEL表格,pandas中的Data原创 2021-02-21 00:35:54 · 3449 阅读 · 0 评论 -
美国纽约州Citi Bike数据分析(4)------相关性分析
在上一篇文章中,我们分析了用户的骑行时间,骑行时长,骑行速度,并得出了相关的结论。在数据分析中,最重要的事情之一就是进行相关性分析,我们都听说过啤酒与尿布的故事,这就是一个相关性分析的很好的例子。通过对事物的相关性分析,我们可以得出更加精准的预测,可以更加了解用户的行为,可以分析出用户的潜在需求并以此来优化服务。在本文中,我们将对骑行与气温,骑行速度与时间这两个条件进行相关性分析。1.骑行与气温...原创 2020-04-13 10:31:24 · 1013 阅读 · 1 评论 -
美国纽约州Citi Bike数据分析(3)------按骑行时间和骑行速度进行分析
在上一篇文章中我们分析了用户的性别、年龄、会员类别,并得出了相关结论。但对于一个属于共享经济类别的业务,我们还需要更多的分析用户的行为习惯,从而使服务更加符合用户的需求。在这篇文章中,我们将分析用户的骑行时间和骑行速度。1.分析用户的骑行时间cb5=pd.DataFrame(pd.read_csv('201505-citibike-tripdata.csv'))#读取5月数据并创建数据表 t...原创 2020-04-13 10:32:01 · 2414 阅读 · 0 评论 -
美国纽约州Citi Bike数据分析(2)------ 用户分析
在上一篇文章中我们分析了Citi Bike的月度和季度的使用情况,但这是不够的,我们还需要分析更多,例如:用户。我们很好奇993万次骑行这个庞大的数据后面是哪些人在使用Citi Bike。由于获得的数据中只有用户性别,出生日期和会员类别的数 据,因此我们仅从这三个维度对Citi Bike的用户进行简单的描述。1.从性别进行分析user_gender=cb1.groupby('gender')...原创 2020-04-13 10:32:21 · 1135 阅读 · 0 评论 -
美国纽约州Citi Bike数据分析(1)------按月份和季度进行分析
Citi Bike是纽约市在2013年5月27日启动的一项自行车共享计划, 由“花旗银行”(Citi Bank)赞助并取名为“花旗单车”(Citi Bike)。在曼哈 顿,布鲁克林,皇后区和泽西市有8,000辆自行车和500个车站。为纽 约的居民和游客提供一种方便快捷,并且省钱的出行方式。Citi Bank官网提供了用户每一 次骑行的数据,包括租赁开始及结束的位置及时间,整个骑行过程的 时间,自...原创 2020-04-13 10:32:36 · 1789 阅读 · 0 评论 -
Python—数据分析------读取文本文件
一、创建文本文件1.打开Windows系统下的Notepad/Notepad++2.在Notepad/Notepad++中写入一些文字(英文)3.将文件保存到桌面上,并命名4.在Notepad/Notepad++中新建一个文件,写入以下代码:#!/usr/bin/env python3import sys #导入sys模块print("OutPut #1 :I'm very lik...原创 2019-01-17 16:39:09 · 949 阅读 · 0 评论