数据分析从0 到 1--引入

最新推荐文章于 2024-07-19 10:46:46 发布

Trance_Fu63

最新推荐文章于 2024-07-19 10:46:46 发布

阅读量187

点赞数

分类专栏：数据分析 python 文章标签：数据分析陈旸

本文链接：https://blog.csdn.net/qq_41504254/article/details/94649124

版权

数据分析同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

python

10 篇文章 1 订阅

订阅专栏

掌握数据，就是掌握规律。
当我们谈论数据分析的时候，都在讲些什么呢？

数据采集。任何分析都需要有数据，是我们的原材料。
数据挖掘。进行数据分析是为了找到其中规律，指导业务。核心是挖掘数据的商业价值。
数据可视化。让我们直观了解数据分析的结果。

数据采集：和数据源打交道，利用工具进行采集。
数据挖掘：相当于算法部分，要先知道其基本流程，十大算法及背后数学基础。

数据可视化：帮助理解数据的结构及分析结果的呈现

使用python：利用python对数据进行清洗和挖掘，并利用Matplotlib、Seaborn 等第三方库呈现。
使用第三方工具：微图、DataV、Data GIF Maker等第三方工具可以便利地对数据进行处理，并制作呈现效果。

数据可视化
另
学习方法：MAS方法。

Multi-Dimension : 掌握一个事物，要多角度认识它
Ask: 不懂就问
Sharing: 最好的学习即分享。用自己的语言再一次表述，是对知识的进一步梳理。

认知三部曲：

带着问题找答案，带着概念做总结。学习数据分析的过程中应该做到：
记录下学习过程中每天的认知；
这些认知对应工具的那些操作；
多做练习来巩固认知。

学习的层次：

基础概念：学习的基础要扎实。
工具：锻炼实操能力
题库：查漏补缺，加深思考

总结：
业务洞察是分析数据的前提，分析数据是理解数据的前提，理解数据是挖掘数据的前提。

数据挖掘的基本流程

知识清单
6个步骤：

商业理解：从商业角度理解项目需求，再对数据挖掘的目标进行定义。
数据理解：对部分数据进行探索，如数据描述，数据质量验证等，有助于初步了解收集的数据。
数据准备：收集、清洗并集成数据。完成数据挖掘前的准备工作。
模型建立：选择和应用各种数据挖掘模型，优化得到更好的分类结果。
模型评估：对模型进行评价。检查建模各步骤是否完成预定商业目标。
上线发布：呈现一份报告或一个可重复的复杂数据挖掘过程。

十大算法：

分类算法： C4.5 ，朴素贝叶斯(Naive Bayes)， SVM, KNN, Adaboost, CART
聚类算法：K-means, EM
关联分析：Apriori
连接分析：PageRank

C4.5
十大算法之首。属于决策树算法，再决策树构造过程中进行剪枝，并可处理连续的属性和不完整的数据。
朴素贝叶斯(Naive Bayes)
基于概率论原理。对给出未知物体进行分类需要求解此位置物体出现的条件下，各个类别出现的概率，哪一类概率最大，就认为该未知物体属于哪个分类。
SVM (Support Vector Machine)
支持向量机。在训练中简历一个超平面的分类模型。
KNN（K-Nearest Neighbor）
K最近邻算法。K近邻，即每个样本都可以用它最接近的K个邻居来代表。若一个样本的K个最接近的邻居都属于分类A，那么这个样本也属于分类A。
Adaboost
在训练中简历来一个联合的分类模型。boost即提升，故 Adaboost是个构建分类器的提升算法。可以让多个弱的分类器组成一个强的分类器。
CART（Classification and Regression Trees）
构建两棵树，一棵分类树，一棵回归树。是一个决策树学习方法。
K-means
是一个聚类算法。若最终把物体归为K类，每个类中有一个“中心点”，是该类核心。若有一待归类新点，则计算新点与K个中心点的距离，距离哪个中心点近，则该点归为哪一类。
EM
最大期望算法。求参数最大似然估计的一种方法。原理：假设想要评估参数A和参数B，初始状态二者未知，但已知A可得B, 反之亦然。那么可考虑先赋予A某个初值，则可得B的估值，再由B的估值出发，重新估计A值。持续这个过程直到收敛。
Apriori
是一种挖掘关联规则（Association rules）算法。通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系。频繁项集是指经常出现在一起的物品集合，关联规则暗示两种物品之间可能存在很强的关系。
PageRank

起源于论文影响力的计算方式，一篇论文被引入次数越多，则该论文影响力越强。 PageRank 被引入网页权重计算中：当一个页面链出现的页面越多，则该页面“参考文献越多”，当该页面被链入的频率越高，则这个页面被引用次数越高。则可据此得到网站的权重划分。