数据分析工具比较浅析

数据分析目标与侧重

之前在数据分析的发展与技能中浅谈了一些个人对数据分析师行业与数据分析师技能的理解。
就字面意思来解析的话,数据分析就是根据企业的生产、销售数据进行整理提炼,以数据分析策略为基础,数据分析报表为展示,分析结论为结果。为企业的运营、销售提供真实的数据策略支持,从而优化企业的生产工过程,从而为企业实现盈利。
在这里插入图片描述
数据分析这个词比较笼统和抽象,实际工作中数据分析师的主要的工作主要是:根据公司业务指定分析策略;收集整理所分析业务模块的数据;制作分析报表、绘制分析图表;生成结论。而这四个过程的权重呈梯度下降。其中最重要的是根据公司业务指定分析策略。其次是收集整理数据。而收集整理数据的工具,是本章要浅析对比的。

数据分析主要工具

在这里插入图片描述

一、数据存储工具

根据公司生产、销售的数据量多少决定相应的存储工具。数据量小于pb级别,mysql分库分表,基本可以解决。大于pb级别则使用分布式数据库或(如互联网公司的埋点数据一般都使用分布式存储),分布式数据库hive,hbase等 或者基于分布式数据库搭建的数据分析平台如神策数据,clickhouse等

二、数据提取

根据所分析数据来源不同,分为公司运营数据和网页数据。公司运用数据从公司的数据库(mysql,hive)使用sql提取。如果需要获取网页数据使用Python(request,selenium,beautifulsoup)提取网页数据

三、数据筛选与数据清洗

sql可以实现基本的数据筛选和简单的数据清洗如字符串替换,字符串截取,简单的数据分类。但如果有复杂的报表操作,需要使用python辅助。
sql与Python的对比
有点
SQL 语句主要具备查询与筛选的优势,主要对列和所有行进行操作。如

示例1
select * from student where name='张三'
示例2
select if(score>60,"及格","不及格") as panduan from student where name='张三'

示例1 sql主要是对列进行筛选操作,示例2 sql主要对姓名等于张三的所有行进行分数判断操作
缺点
灵活性不高,对复杂操作,sql语句复杂且,随着数据量的增长,执行时间增加。
部分数据操作无法实现,如数据透视表的生成。sql难以实现(不排除部分数据库新版本支持数据透视函数,或未来支持数据透视函数)
Python做为数据处理的一个延伸可以是复杂的数据需求脚本化。python 数据分析库numpy,pandas,sklearn等
下章开始,将主要介绍python pandas 库的使用及数据分析场景应用

四、数据报表展示

数据报表最后的展示可以是报表或者图表。简单展示可以使用excel ,如果需要展示给客户,也可以使用线上展示平台如finebi,也可使用python的matplotlib、pyechars、seaborn 等。

总结

数据分析的工具很多,不需要全部掌握精通。每个工具各有优势,没有万能的工具,根据公司实际的业务选择合适的工具才能发挥最大作用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
是一款超级专业且非常使用的文件数据比对工具,能帮助广大用户快速轻松地比较文件和文件夹,通过使用简单,功能强大的命令,大家可以专注于您感兴趣的差异,而忽略那些不需要的差异,并且大家还可以合并更改、同步文件并生成报告以作记录 可以使用针对文档、源代码、HTML专门调整的语法突出显示和比较规则来查看和编辑文本文件,微软的Word文档和Adobe的PDF文件的文本内容也可以进行比较但无法编辑,数据文件、可执行文件、二进制数据和图像也都具有专用的查看器,因此大家始终可以清楚地看到所做的更改 比较文件夹的功能非常强悍,可以高速比较整个驱动器和文件夹,仅检查大小和修改时间,或者通过逐字节比较彻底验证每个文件、FTP站点、云存储并且和zip文件无缝集成,强大的过滤器使广大用户可以将看到的内容限制为只对自己感兴趣的内容 合并视图使您可以将文件或文件夹的两个版本的更改合并到单个输出中,它的智能方法使您可以快速接受大多数更改,同时仔细检查冲突。颜色编码和部分突出显示使您可以轻松,轻松地接受,拒绝或合并更改。合并文件时,可以使用内置的语法突出显示编辑器更改输出中的任何行。 您可以有效地更新笔记本电脑,备份计算机或管理您的网站,而“超越比较”将处理所有详细信息。您可以使用相同的界面在磁盘,FTP服务器和zip文件之间进行复制。您不希望受到影响的任何内容都可以轻松过滤掉,并且所有强大的比较技术都可用,从而使备份可以根据需要快速或强大地进行,大家可以使用灵活的脚本语言自动执行重复性任务,并且可以从命令行调用任何脚本,从而可以在最方便的时间安排同步。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值