《谁说菜鸟不会数据分析(入门篇)》总结

一、数据分析方法论

营销方面:4P、用户使用行为、STP理论、SWOT

管理方面的理论模型:PEST5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等

PEST宏观环境分析

P(political)

政治环境社会性质、执政党性质、方针、政策、法令

政治经济体制、财政税收政策、产业政策等

E(economic)

经济环境

宏观

GDP及其增长率、进出口总额、利率、税率、通货膨胀率、

微观

消费价格指数、居民可支配收入、失业率、劳动生产率

S(social)

社会环境(人口、性别比例、出生率和死亡率、种族结构、生活方式、教育状况、城市特点、宗教信仰等)

T(technological)

技术环境(新技术的发明和发展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数和保护情况等)

v PEST——行业分析

v 5W2H——用户行为分析、业务问题专题分析

Why+what+who+when+where

How+how much

逻辑树——业务问题专题分析

要素化:相同问题总结归纳成要素

框架化:要素组织成框架,不重不漏

关联化:框架内的各要素保持必要的相互关系,简单不孤立

v 4P——可了解公司的整体运营情况

产品(有形产品、人员、组织、服务等)、

价格(需求、成本、竞争)、

渠道(生产到用户中间的各个环节)、

促销(广告、宣传推广、人员推销、销售促进)

用户行为理论——用户行为分析

用户使用行为的完整过程:

 

 

二、数据处理

1.数据清洗

清除不必要的重复数据

(1)Excel中的方法

Ø Countif(区域,条件)

编号

重复标记

第二次重复标记

A667708

1

1

A310882

1

1

A520304

1

1

A356517

1

1

A776477

2

1

A466074

3

1

A466074

3

2

A466074

3

3

A776477

2

2

A218912

1

1

Ø 利用excel的高级筛选功能

选择待筛选数据,‘数据’—排序和筛选中’高级’—勾选‘选择不重复的记录’

Ø 条件格式法

选中待筛选数据,‘条件格式’—‘突出显示单元格规则’—‘重复值’

Ø 数据表透视法

选中待筛选数据,分别拖至‘行’和‘数值’

(2)sql

select Email from Person where Id  in (select Id from Person group by Email having count(*)>=2)

(3)删除重复数据

Ø Sql

delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)

Ø Excel

选中待筛选数据,‘数据’—‘删除重复项’

填充缺失的数据

平均值/删除/模型训练出的数据/保留缺失记录(样本大,缺失占比小)

(1)EXCEL

Ctrl+G 定位空值

Ctrl+Enter 不连续区域中同时输入同一个数据或公式

查找和替换

检测逻辑错误的数据

Excel中:

If+countif

条件格式:标出逻辑错误的数据

or(逻辑值1,逻辑值2...

and(逻辑值1,逻辑值2...

2. 数据加工

数据抽取

主要工作:

Ø 合并字段

& 运算符

Concatenate(text1text2,text3,text4......)

Texttext,格式)连接文本与数字时,指定数字的显示格式

Ø 截取部分字段(字段分列)

Excel中的分列

Ø 字段匹配

Vlookup(要查找的vlaue,单个区域期中第一列必须是要查找的值area,希望匹配的列序号,近似匹配1精确匹配0)

精确匹配就是指值必须相等

近似匹配指在待查找区域area的第一列找接近又不大于area的值

数据计算

加减乘除、自动求和、求平均值、

日期的加减法:

Today()

返回当前时间

2018/4/7

now()

返回当前时间

2018/4/7 9:55

Ctrl+;

返回当前时间

2018/4/7

Date(year,month,day)

返回指定日期(可用来进行加减)

=DATE(2017,2,8)

2017/2/8

=DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10)

2027/8/18(比上一个多了10年,6个月,10天)

 

Datedif(起始日子,结束日期,unit)

返回两个日期之间的年//日间隔数

Unit取值:

Y:相差年份

M:相差月份

D:相差天数

YM:相差月份(忽略了年份和天数)

MD:相差天数(忽略了年份和月份)

YD:相差天数(忽略了年份)

=DATEDIF(G6,H6,"Y")&""

10

=DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天数)"

10天(忽略年份和月份的天数)

=DATEDIF(G6,H6,"YM")&"月(忽略年份和天数)"

6月(忽略年份和天数)

=DATEDIF(G6,H6,"YD")&"天(忽略年份天数)"

191天(忽略年份天数)

=DATEDIF(G6,H6,"D")&""

3843

 数据分组

vlookup

数据转换

‘选择性粘贴’—‘转置’

多选转化为0-1

=IF(ISNUMBER(HLOOKUP(find_value,area,列序号,0/1)),1,0)

=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)

数据抽样

Rand()函数

返回(0,1)的均匀分布随机数,每次计算工作表时都将返回一个新的数值

数据分析方法

数据分析的作用:现状分析、原因分析、预测分析

三大作用对应的分析思路:对比、细分、预测

 

Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。Quartz可以用来创建简单或为运行十个,百个,甚至是好几万个Jobs这样复杂的程序。Jobs可以做成标准的Java组件或 EJBs。 Quartz的优势: 1、Quartz是一个任务调度框架(库),它几乎可以集成到任何应用系统中。 2、Quartz是非常灵活的,它让您能够以最“自然”的方式来编写您的项目的代码,实现您所期望的行为 3、Quartz是非常轻量级的,只需要非常少的配置 —— 它实际上可以被跳出框架来使用,如果你的需求是一些相对基本的简单的需求的话。 4、Quartz具有容错机制,并且可以在重启服务的时候持久化(”记忆”)你的定时任务,你的任务也不会丢失。 5、可以通过Quartz,封装成自己的分布式任务调度,实现强大的功能,成为自己的产品。6、有很多的互联网公司也都在使用Quartz。比如美团 Spring是一个很优秀的框架,它无缝的集成了Quartz,简单方便的让企业级应用更好的使用Quartz进行任务的调度。   课程明:在我们的日常开发中,各种大型系统的开发少不了任务调度,简单的单机任务调度已经满足不了我们的系统需求,复杂的任务会让程序猿头疼, 所以急需一套专门的框架帮助我们去管理定时任务,并且可以在多台机器去执行我们的任务,还要可以管理我们的分布式定时任务。本课程从Quartz框架讲起,由浅到深,从使用到结构分析,再到源码分析,深入解析Quartz、Spring+Quartz,并且会讲解相关原理, 让大家充分的理解这个框架和框架的设计思想。由于互联网的复杂性,为了满足我们特定的需求,需要对Spring+Quartz进行二次开发,整个二次开发过程都会进行讲解。Spring被用在了越来越多的项目中, Quartz也被公认为是比较好用的定时器设置工具,学完这个课程后,不仅仅可以熟练掌握分布式定时任务,还可以深入理解大型框架的设计思想。
[入门数据分析的第一堂课]这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍:Ø  什么是数据分析-知其然才知其所以然Ø  为什么要学数据分析-有目标才有动力Ø  数据分析的学习路线-有方向走得更快Ø  数据分析的模型-分析之道,快速形成分析思路Ø  应用案例及场景-分析之术,掌握分析方法[哪些同学适合学习这门课程]想要转行做数据分析师的,零基础亦可工作中需要数据分析技能的,例如运营、产品等对数据分析感兴趣,想要更多了解的[你的收获]n  会为你介绍数据分析的基本情况,为你展现数据分析的全貌。让你清楚知道自己该如何在数据分析地图上行走n  会为你介绍数据分析的分析方法和模型。这部分是讲数据分析的道,只有学会底层逻辑,能够在面对问题时有自己的想法,才能够下一步采取行动n  会为你介绍数据分析的数据处理和常用分析方法。这篇是讲数据分析的术,先有道,后而用术来实现你的想法,得出最终的结论。n  会为你介绍数据分析的应用。学到这里,你对数据分析已经有了初步的认识,并通过一些案例为你展现真实的应用。[专享增值服务]1:一对一答疑         关于课程问题可以通过微信直接询问老师,获得老师的一对一答疑2:转行问题解答         在转行的过程中的相关问题都可以询问老师,可获得一对一咨询机会3:打包资料分享         15本数据分析相关的电子书,一次获得终身学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值