Python数据分析

1.1 数据分析

1.1.1 数据、信息与数据分析
数据: 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。

信息:信息是数据的内涵,信息是加载于数据之上,对数据作具有含义的解释。(用来消除不确定性)

数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。

数据是符号,是物理性的,信息是对数据进行加工处理之后得到并对决策产生影响的数据,是逻辑性和观念性的;
数据是信息的表现形式,信息是数据有意义的表示。数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。
数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
数据分析:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析有狭义和广义之分。狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法对搜集来的数据进行处理与分析提取有价值的信息,发挥数据的作用,并得到一个统计量结果的过程。广义的数据分析是指针对搜集来的数据运用基础探索、统计分析、深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,进而为下一步的业务决策提供理论与实践依据。广义的数据分析就包含了数据挖掘。
1.1.2数据分析与数据挖掘的区别
数据挖掘:数据挖掘是指从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。
数据分析和数据挖掘都是基于搜集来的数据,应用数学、统计和计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。
1.1.3数据分析的流程
需求分析:数据分析中的需求分析也是数据分析环节的第一步和最重要的步骤之一,决定了后续的分析的方向、方法。
数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。
数据预处理:数据预处理是指对数据进行数据合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变得干净整齐,可以直接用于分析建模这一过程的总称。
分析与建模:分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法和聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程。
模型评价与优化:模型评价是指对已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。
部署:部署是指通过了正式应用数据分析结果与结论应用至实际生产系统的过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值