数据分析
数据分析
大虎牙
一物不知 深以为耻 便求知若渴
展开
-
学习笔记 | 用数据讲好故事,提升职场说服力
用数据说话的三个场景展示:将自己数据分析的结果进行可视化展示。汇报:用数据向上级汇报自己的工作成绩。量化说服:用数据更高效地说服同事,拿到资源。01 展示条形图、柱状图适合看对比。扇形图、饼图适合展现占比。散点图、气泡图适合来看分布、看相关。02 汇报误区:容易把苦劳当功劳。量化你的工作成果。如何用数据量化自己的工作:找到你的工作与公司量化目标之间的关联。量化的目标:只有当你的工作是可以被量化的,你的价值才是可被衡量的。03 说服故事性表达结构:知识点总原创 2020-06-22 10:45:54 · 392 阅读 · 0 评论 -
学习笔记 | 相关分析法:验证问题的切入点,迅速判断工作优先级
相关分析法:验证问题的切入点,迅速判断工作优先级01 什么是相关相关就是指两个变量,当一个变量发生变化时,另一个变量也跟着变化的关系。02 什么是相关分析相关分析,就是去找到两种变量中间,到底有什么相关关系。也就是说,A因素变了之后,B因素是怎么跟着变的。03 相关分析的3大应用场景快速锁定大问题相关的一个个小因素用数据说服他人,终结撕逼帮我们判断事情优先级04 相关的类型线性相关:如头发长度与时间之间,就是线性相关非线性相关:如职位层级与薪资之间,就是指数相关指数、幂原创 2020-06-21 09:52:32 · 294 阅读 · 0 评论 -
学习笔记 | 百度搜索技巧
01 A+空格+site:搜索范围所限定的网址,就能在一个网站中进行垂直搜索A。举例: 数据分析 site:zhihu.com02 A+空格+filetype:文件格式就能搜索对应类型的A文件例如:大数据 filetype:PDF ,搜索出来的结果是PDF文档。03 A+空格+ -B能搜索A里不包含B的内容。例:数据分析 -推广链接04 A 年份1…年份2好不容易搜到了符合主题的报告,却发现报告内容太陈旧,用不了例: 数据分析师 2016..2020 这样你搜索出来的数据原创 2020-06-20 16:55:00 · 445 阅读 · 0 评论 -
学习笔记 | 对问题进行拆解,复杂问题简单化 —— 漏斗分析
01 分析问题的本质其实就是把一个大问题进行拆解,把一个大问题拆解成一个个小问题。02 分析拆解问题的方法漏斗分析:顺着环节、流程,拆解成一个个过程问题。漏斗分析本质是一套流程分析,适用于流程较长、环节较多,并且随着环节进行流量逐渐流失的场景。03 漏斗分析的3大应用场景分析拆解问题帮我们分配精力绩效目标管理04 漏斗分析的三个步骤根据工作流程,画出漏斗的各个环节路径对漏斗各环节做数据分析确定哪个环节作为优化重点指导原则把流程节点画成漏斗的时候,漏斗层.原创 2020-06-20 11:11:15 · 1624 阅读 · 0 评论 -
学习笔记 | 超简单爬虫小练习-对拉勾网的【数据分析岗位】做数据分析
一、进行拉勾网的【数据分析岗位】分析整体步骤如下:数据采集数据清洗分析二、清晰知道,要进行什么分析?我们需要什么信息呢?我们要对拉勾网的 【数据分析岗位】 上海地区行业需求情况进行分析,需要知道招聘数据分析岗位的上海公司所属 【行业类型】三、进行操作1、数据采集:(1)找到数据来源的网站:【拉勾网】(2)搜索【数据分析师】,确认工作地点:上海(3)新开启一个网页页面,百度搜索“ 后羿采集器 ”,可免费下载。并进行安装。安装成功后,打开。(4)点击开始采集(5)输入:原创 2020-06-19 21:27:47 · 481 阅读 · 0 评论 -
学习笔记 | 揭开明星店铺的营收秘密
01 揭开明星店铺的营收秘密你是国内领先超市品牌的销售负责人,新年伊始,你需要用掌握的三种分析方法(对比分析、相关性分析、漏斗分析法),对去年的销售情况做一个复盘,看看全国45家门店的销售业绩如何,找出业绩最好的团队,同时分析影响销售额的关键因素,为今年的业务指明方向。【作业说明】这次你需要对数据做一些基本的整理,要在没有完整/理想的历史数据的情况下,分析门店经营情况,以及假日、经济环境等不同因素对于销售业绩的影响。你无需额外查询任何资料,可以基于已有数据做出数据整理、描述和分析,提出你的分析结原创 2020-06-19 11:46:53 · 250 阅读 · 0 评论 -
学习笔记 | 发现问题,提取洞见 —— 对比分析法
第1节,我会教你如何用对比分析,来在工作中发现问题,具备他人看不到的洞见,这一小节,还会教你用爬虫等工具,爬取外部数据,来更好地进行对比;第2节,在前面学会用数据发现问题后,我会教你如何用漏斗分析法,将复杂问题简单化,以找到问题的切入点;第3节,我会教你如何用相关分析,来验证你找到的问题切入点,是否真的与最终的结果相关,哪些切入点更有效,以此来判断工作的优先级;第4节,我会告诉你,掌握更多分析能力、有能力解决问题之后,如何用数据可视化方法,更好地展示自己的能力。在职场上,你行,还得有别人说你行。..原创 2020-06-19 10:41:54 · 870 阅读 · 0 评论 -
学习笔记 | 二八定律、ABC分析法
01 二八法则在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数,因比只要能控制具有重要性的少数因子即能控制全局。二八法则是一种不平衡法则,即20%的对象产生80%的效果,20%是对象,80%是效果,前后不是一个范畴。举例:20%的客户贡献了80%的利润,20%的客户即为利润指标的重点客户。20%的企业员工拿了公司80%的薪水。80%的时间只穿了衣柜中20%的衣服。80%的时间我们只在20%的区域活动。二八法则的作用二八法则的作用是找到对象中的重点因素,将对象分为重原创 2020-06-08 23:49:29 · 3328 阅读 · 0 评论 -
学习笔记 | 幸存者偏差 Survivorship Bias
01 幸存者偏差概念的本质是什么?用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。统计学的简单描述是这样的:统计全集为A,观察到A的子集A1有特征X,A1为幸存者,而A另外的子集A2并没有观察到或者被人为忽略,于是判断全集A都有特征X,事实上A2的特征为Y。02 它容易在哪些情况下发生?它的作用机制是怎样的?从统计学的角度我们来看我们是如何滥用幸存者偏差的——我们观察到了A1有特征X,同时我原创 2020-06-08 22:51:04 · 2317 阅读 · 0 评论 -
学习笔记 | 数据分析之AB Test
数据分析之AB Test业务发展 -> 用户增长AB test是伴随着业务增长的利器,在产品功能及策略迭代过程中有重要价值。数据分析指标:点击率、转化率。A/B实验的重要理念:宁肯砍掉4个好的产品,也不应该让1个不好的产品上线。01 A/B test是什么A / B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验,其中页面的两个或多个变体随机显示给用户,统计分析确定哪个变体对于给定的转换目标(指标如CTR原创 2020-06-07 00:41:15 · 4985 阅读 · 1 评论 -
学习笔记 | Pandas数据合并和重塑
5.2 数据合并和重塑5.2.1 merge合并merge函数是通过一个或多个键将两个DataFrame按行合并起来,其方式与关系型数据库一样。merge默认为内连接inner,也就是返回交集。通过how参数可以选择连接方法:左连接left、右连接right和外连接outer。多对多的连接会产生笛卡尔积。当然,也可以通过多个键进行合并,即传入一个list即可。在合并时要考虑到重复列名的问题。虽然可以人为进行重复列名的修改,但merge函数提供了suffixes用于处理该问题。可通过传入lef原创 2020-06-06 19:09:41 · 501 阅读 · 0 评论 -
学习笔记 | Pandas使用分组聚合进行组内计算
01 使用groupby方法拆分数据02 使用agg方法聚合数据03 使用apply方法聚合数据04 使用transform方法聚合数据原创 2020-06-06 18:25:05 · 650 阅读 · 0 评论 -
学习笔记 | 描述分析DataFrame数据
原创 2020-06-05 23:41:12 · 384 阅读 · 0 评论 -
学习笔记 | Pandas读写不同数据源的数据
01 读写不同数据源的数据02 读写文本文件03 Excel文件读取原创 2020-06-05 21:42:10 · 273 阅读 · 0 评论 -
学习笔记 | 数据分析基本流程
一. 数据分析的基本流程01 明确需求与目的02 数据收集:巧妇难为无米之炊内部数据:内部数据库购买数据爬取数据:Python网络爬虫调查问卷03 数据预处理:保证数据质量数据清洗:缺失值、异常值、重复值数据转换与特征工程:例如,169cm 字符串 转换为169 数值。04 数据分析描述分析推断分析数据建模数据可视化05 撰写报告二、流程对比理解数据分析步骤做一个类比,比如,我们现在要做一道菜,那我们需要进行怎样的流程呢?确定做菜、买菜、洗菜、切菜、炒菜、盛原创 2020-06-05 13:31:23 · 286 阅读 · 0 评论 -
学习笔记 | 基于文本内容的垃圾短信识别 相关概念
基于文本内容的垃圾短信识别数据预处理文本的向量表示原创 2020-06-02 22:25:38 · 1609 阅读 · 1 评论 -
学习笔记 | NumPy基础 | 读写文件
01 用于数组的文件输入输出NumPy能够读写磁盘上的文本数据或二进制数据。1⃣️ 将数组以二进制格式保存到磁盘np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。2⃣️ 存取文本文件txt从文件中加载文本是一个非常标准的任务。pandas中的read_csv和read_table函数。np.loadtxt或更为专门化的np.genfrom将数据加载到普通的Numpy数组中。这些函数都有许多选原创 2020-05-27 23:14:13 · 209 阅读 · 0 评论 -
学习笔记 | NumPy基础 | 矩阵与通用函数
矩阵与通用函数 数组转置和轴对换转置transpose是重塑的一种特殊形式,它返回的是源数据的视图。数组不仅有transpose方法,还有一个特殊的T属性。np.dot(,) 计算矩阵内积。transpose()swapaxes()方法通用函数:快速的元素级数组函数通用函数即ufunc是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的矢量化包装器。...原创 2020-05-27 23:13:15 · 222 阅读 · 0 评论 -
学习笔记 | NumPy基础 | 变换数组的形态 ravel、flatten、hstack、vstack、hsplit、vsplit
NumPy基础 | 变换数组的形态01 改变数组形状02 使用ravel函数展平数组03 使用flatten函数展平数组04 组合数组05 切割数组原创 2020-05-27 22:55:14 · 217 阅读 · 0 评论 -
学习笔记 | NumPy基础 | 生成随机数
NumPy生成随机数原创 2020-05-27 22:34:48 · 133 阅读 · 0 评论 -
学习笔记 | NumPy基础 | 数组操作、索引、简单统计分析
01 NumPy的ndarray:一种多维数组对象2⃣️ 数组和标量之间的运算不用编写循环即可对数据执行批量运算,这通常就叫做矢量化vectorization。大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算也会将那个标量值传播到各个元素。不同大小的数组之间的运算叫做广播broadcasting。3⃣️ 基本的索引和切片当你将一个标量值赋值给一个切片时,该值会自动传播到整个选区。数组跟列表最重要的区别在于,数组切片是原始数组的视图。这意味着数据不会被复制,原创 2020-05-27 22:26:32 · 272 阅读 · 0 评论 -
学习笔记 | matplotlib可视化 餐饮订单例子实践
01 matplotlib可视化 餐饮订单例子实践原创 2020-05-24 21:52:29 · 853 阅读 · 2 评论 -
学习笔记 | matplotlib可视化 函数练习
散点图import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinex = np.linspace(0,2*np.pi,100)y = np.sin(x)+np.random.rand(100)plt.rcParams['font.sans-serif'] = ['Arial Unicode MS'] #指定默认字体plt.rcParams['axes.unicode_minus'] = False #解原创 2020-05-24 19:51:53 · 198 阅读 · 0 评论 -
学习笔记 | python数据可视化 概述
数据可视化python数据可视化matplotlib可视化掌握pyplot基础语法基本绘制流程原创 2020-05-24 18:40:03 · 153 阅读 · 0 评论 -
学习笔记 | pyecharts (V0.5版本) 画图
1. 柱状图from pyecharts import Bar#从pyecharts库中导入Bar子类bar = Bar("贵州GDP柱状图", "副标题")#定义Bar()柱状图,同时设置主标题和副标题bar.add("GDP",["贵阳市", "遵义市", "六盘水市", "安顺市", "黔东南州"],[40, 30, 26, 22, 15])#调用add()函数添加图表的数据和设置各种配置项#bar.show_config()#打印输出图表的所有配置项bar.render()原创 2020-05-18 16:13:29 · 996 阅读 · 1 评论 -
学习笔记 | Mac上pyecharts使用的问题
01 MAC | 安装pyecharts02 Mac | jupyter notebook中pyecharts输出图表显示空白输出html是正常的,jupyter notebook 里是空白的。未解决,欢迎大佬指点。原创 2020-05-17 17:59:30 · 646 阅读 · 0 评论 -
学习笔记 | Ch05 Pandas数据清洗 —— 缺失值、重复值、异常值
第5章 数据清洗与整理pandas数据清洗:学会常见的数据清洗方法。数据合并:学会多源数据的合并和连接。数据重塑:针对层次化索引,学会stack和unstack的使用。字符串处理:学会DataFrame中字符串函数的使用。5.1 数据清洗缺失值的处理、重复数据的处理及如何替代值等具体操作。5.1.1 处理缺失值1. 侦查缺失值通过isnull和notnull方法,可以返...原创 2020-03-08 20:46:57 · 670 阅读 · 0 评论 -
学习笔记 | Ch04 外部数据的读取与存储
第4章 外部数据的读取与存储文本数据:学会CSV、TXT等文本文件的读取与存储,了解并熟悉pandas读取函数参数的使用。JSON和Excel数据:学会对JSON和Excel数据的读取与存储。数据库数据:介绍MySQL数据库的读取和存储。Web数据:学会简单的Web数据的读取。4.1 文本数据的读取与存储4.1.1 CSV文件的读取pandas库提供了将表格型数据读取为Data...原创 2020-03-08 09:14:43 · 323 阅读 · 0 评论 -
学习笔记 | Ch03 pandas入门和实战3 —— pandas可视化
学习笔记 | 《从零开始学python数据分析》| 第3章 pandas入门和实战33.5 pandas可视化3.5.1 线性图线形图通常用于描绘两组数据之间的趋势。pandas库中的Series和DataFrame中都有绘制各类图表的plot方法,默认情况绘制的是线形图。%matplotlib inline为魔法函数,使用该函数绘制的图片会直接显示在Notebook中。...原创 2020-03-07 17:53:12 · 331 阅读 · 0 评论 -
学习笔记 | Ch03 pandas入门和实战2 —— 数据运算、层次化索引
第3章 pandas入门和实战23.3 pandas数据运算3.3.1 算术运算pandas的数据对象在进行算数运算时:如果有相同索引对则进行算术运算如果没有则会引入缺失值,这就是数据对齐。对于DataFrame数据而言,对齐操作会同时发生在行和列上。from pandas import Series,DataFrameimport pandas as pdimport n...原创 2020-03-06 17:45:26 · 443 阅读 · 0 评论 -
学习笔记 | Ch03 pandas入门和实战1 —— Series、DataFrame、索引
第3章 pandas入门和实战3.1 pandas数据结构pandas有两个基本的数据结构:Series和DataFrame。3.1.1 创建Series数据Series数据结构类似于一维数组,但它是由一组数据(各种Numpy数据类型)和一组对应的索引组成。通过一组列表数据即可产生最简单的Series数据。Series与普通的一维数组相比,其具有索引对象,可通过索引来获取Serie...原创 2020-03-06 10:27:17 · 447 阅读 · 0 评论 -
学习笔记 | Ch07 Matplotlib可视化
第7章 matplotlib可视化本章主要涉及以下几个知识点:线性图的基本绘制方法和样式设置各类柱状图的绘制方法绘制散点图和直方图灵活运用matplotlib的参数自定义图表设置通过综合案例掌握matplotlib可视化的方法和技巧7.1 线性图线形图是最基本的图表类型,常用于绘制连续的数据。通过绘制线形图,可以表现出数据的一种趋势变化。本节主要介绍如何利用matplot...原创 2020-03-05 17:14:17 · 489 阅读 · 2 评论 -
学习笔记 | NumPy基础 | 创建数组
import numpy as np01 NumPy的ndarray:一种多维数组对象ndarray是一个通用的同构数据多维容器,也就是说,其中的所有元素必须是相同类型的。每个数组都有一个shape(一个表示各维度大小的元组)和一个dtype(一个用于说明数组数据类型的对象)。本书中的“数组”、“NumPy数组”、“ndarray”时,基本上都指的是同一样东西,即ndarray对象...原创 2020-03-02 18:08:44 · 169 阅读 · 0 评论 -
学习笔记 | 《利用python进行数据分析》| 附录A | python语言精要
从结构化和非结构化数据处理的角度重点介绍一些有关Python内置数据结构和库的最重要的功能。强烈建议用IPython实验所有的代码示例,并查看各种类型、函数以及方法的文档。本书主要关注的是能够处理大数据集的高性能数组计算工具。一. 基础知识01 语言语义缩进(空白符、制表符),而不是大括号:具有更高的可读性万物皆对象注释:#函数调用和对象方法调用变量和按引用传递理解p...原创 2020-03-02 15:48:04 · 179 阅读 · 0 评论 -
学习笔记 | 《谁说菜鸟不会数据分析》| 第3章 无米难为巧妇——数据准备
第3章 无米难为巧妇——数据准备做饭:买米、洗米、煮米饭“米”的构造、种类和要求——理解数据“米”从哪里来——数据来源3.1 理解数据对数据的理解是数据分析的一个重要前提。3.1.1 字段与记录字段是事物或现象的某种特征。在统计学中称为变量。记录是事物或现象某种特征的具体表现。记录也称为数据或变量值。数据需要由字段与记录共同组合而成。3.1.2 数据类型...原创 2020-03-01 15:51:11 · 208 阅读 · 0 评论 -
学习笔记 | 《谁说菜鸟不会数据分析》| 第2章 结构为王——确定分析思路
第2章 结构为王——确定分析思路2.1 数据分析方法论我们把这些跟数据分析相关的营销、管理等理论统称为数据分析方法论。在分析方法论指导下开展分析,以确保分析结果具有指导意义(确保数据分析维度的完整性,分析结果的有效性及正确性)。PEST分析理论主要用于行业分析。4P分析理论主要用于公司整体经营情况分析。逻辑树分析理论可用于业务问题专题分析。用户行为理论的用途较单一,就是用于用户...原创 2020-02-29 17:39:58 · 264 阅读 · 0 评论 -
学习笔记 | 《谁说菜鸟不会数据分析》| 第1章 数据分析那些事
第1章1.1 数据分析是“神马”1.1.1 何谓数据分析——对数据进行分析1.1.2 数据分析的作用1.2 数据分析六步曲1.2.1 明确分析目的和思路1.2.2 数据收集1.2.3 数据处理1.2.4 数据分析1.2.5 数据展现1.2.6 报告撰写1.3 数据分析的三大误区1.4 数据分析师的职业发展1.4.1 数据分析的广阔前景1.4.2 数据分析师的职业要求1...原创 2020-02-28 15:23:35 · 434 阅读 · 0 评论 -
学习笔记 | 12种Excel技巧 | 第4章
一. 互联网人必备的12种Excel技巧(三节课)不说明为windows下应用的,则为Mac上excel的操作。第1章 「数据整理」4招把你的数据源变清爽第1章 「数据整理」4招把你的数据源变清爽第2章 能解决80%问题的几个函数第2章 能解决80%问题的几个函数第3章 数据分析必备的「数据透视表」第3章 数据分析必备的「数据透视表」第4章 图表可视,让数据说话01 「图表...原创 2020-02-27 16:23:56 · 238 阅读 · 0 评论 -
学习笔记 | 12种Excel技巧 | 第3章
一. 互联网人必备的12种Excel技巧(三节课)不说明为windows下应用的,则为Mac上excel的操作。第1章 「数据整理」4招把你的数据源变清爽第1章 「数据整理」4招把你的数据源变清爽第2章 能解决80%问题的几个函数第2章 能解决80%问题的几个函数第3章 数据分析必备的「数据透视表」01 「数据透视表」数据分析化繁为简02 「四种四段」排列组合03 「切片器...原创 2020-02-26 10:00:05 · 374 阅读 · 0 评论 -
学习笔记 | SQL集函数、聚合函数、字符串函数、时间日期函数、数学函数
Group BY分组原创 2020-02-25 21:52:58 · 135 阅读 · 0 评论