数据分析目标与侧重
之前在数据分析的发展与技能中浅谈了一些个人对数据分析师行业与数据分析师技能的理解。
就字面意思来解析的话,数据分析就是根据企业的生产、销售数据进行整理提炼,以数据分析策略为基础,数据分析报表为展示,分析结论为结果。为企业的运营、销售提供真实的数据策略支持,从而优化企业的生产工过程,从而为企业实现盈利。
数据分析这个词比较笼统和抽象,实际工作中数据分析师的主要的工作主要是:根据公司业务指定分析策略;收集整理所分析业务模块的数据;制作分析报表、绘制分析图表;生成结论。而这四个过程的权重呈梯度下降。其中最重要的是根据公司业务指定分析策略。其次是收集整理数据。而收集整理数据的工具,是本章要浅析对比的。
数据分析主要工具
一、数据存储工具
根据公司生产、销售的数据量多少决定相应的存储工具。数据量小于pb级别,mysql分库分表,基本可以解决。大于pb级别则使用分布式数据库或(如互联网公司的埋点数据一般都使用分布式存储),分布式数据库hive,hbase等 或者基于分布式数据库搭建的数据分析平台如神策数据,clickhouse等
二、数据提取
根据所分析数据来源不同,分为公司运营数据和网页数据。公司运用数据从公司的数据库(mysql,hive)使用sql提取。如果需要获取网页数据使用Python(request,selenium,beautifulsoup)提取网页数据
三、数据筛选与数据清洗
sql可以实现基本的数据筛选和简单的数据清洗如字符串替换,字符串截取,简单的数据分类。但如果有复杂的报表操作,需要使用python辅助。
sql与Python的对比
有点
SQL 语句主要具备查询与筛选的优势,主要对列和所有行进行操作。如
示例1
select * from student where name='张三'
示例2
select if(score>60,"及格","不及格") as panduan from student where name='张三'
示例1 sql主要是对列进行筛选操作,示例2 sql主要对姓名等于张三的所有行进行分数判断操作
缺点
灵活性不高,对复杂操作,sql语句复杂且,随着数据量的增长,执行时间增加。
部分数据操作无法实现,如数据透视表的生成。sql难以实现(不排除部分数据库新版本支持数据透视函数,或未来支持数据透视函数)
Python做为数据处理的一个延伸可以是复杂的数据需求脚本化。python 数据分析库numpy,pandas,sklearn等
下章开始,将主要介绍python pandas 库的使用及数据分析场景应用
四、数据报表展示
数据报表最后的展示可以是报表或者图表。简单展示可以使用excel ,如果需要展示给客户,也可以使用线上展示平台如finebi,也可使用python的matplotlib、pyechars、seaborn 等。
总结
数据分析的工具很多,不需要全部掌握精通。每个工具各有优势,没有万能的工具,根据公司实际的业务选择合适的工具才能发挥最大作用。