01-数据分析全景图及修炼指南

前言:数据分析,是在理解实际业务后,可以分成三个重要的组成部分。
A.数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。
B.数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。
C.数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。
在这里插入图片描述
1.数据采集.
在数据采集部分中,通常会和数据源打交道,然后使用工具进行采集。
后面会讲有哪些常用的数据源,以及如何获取它们。
另外在工具使用中,也将掌握“八爪鱼”这个自动抓取的神器,它可以抓取 99% 的页面源。当然也有如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。
在这里插入图片描述
2.数据挖掘.
数据挖掘可以说是知识型的工程,相当于整个专栏中的“算法”部分。首先要知道它的基本流程、十大算法、以及背后的数学基础。这一部分会接触到一些概念,比如关联分析,Adaboost 算法等等。后面每讲完一个算法原理,都会做一个项目的实战,精选了一些典型的、有趣的项目,比如对泰坦尼克号乘客进行生存预测、对文档进行自动分类、以及导演是如何选择演员的等等。
掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的,置信度这个词后面来学习它具体代表什么。
在这里插入图片描述
3.数据可视化.
数据可视化是一个非常重要的步骤。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
如何进行数据可视化呢?
有两种方法。
第一种就是使用 Python。在 Python 对数据进行清洗、挖掘的过程中,我们可以使用 Matplotlib、Seaborn 等第三方库进行呈现。
第二种就是使用第三方工具。如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。
在这里插入图片描述
学习数据分析最好的方法是:在工具中灵活运用,在项目中加深理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值