python数据分析与应用 从数据获取到可视化
第一章数据分析概述
1.)数据分析:是指使用适当的统计分析方法对数据进行提取有用信息从而形成结论加以研究总结的过程。
2.)数据分析的目的:在杂乱无章的数据信息中提炼有用的数据集,以找出所研究对象的内外规律。
3.)在统计学领域中,数据分析划分为如下三类:
描述性数据分析:从一组数据中可以摘要并描述这份数据的集中和离散情形。
探索性数据分析:从海量数据中找出规律,并产生分析模型和研究假设。
验证性数据分析:验证假设测试所需的条件能不能达到,以保证验证性分析的可靠性。
4.)数据分析的流程:首先得明确目的和思路,对数据进行数据收集(有目的收集整合相关数据的一个过程)→_→数据处理(对收集到的数据进行清洗加工整理,类似于garbage in,garbage out)→_→数据分析(通过分析手段方法技巧对准备好的数据进行探索分析,发现因果关系等等)→_→数据展现(利用图表方式进行展现)
5.)选择python做数据分析的原因:其语法简单精炼,适合初学者入门。
拥有一个巨大并且活跃的科学计算社区。
拥有强大的通用编程能力。
人工智能时代的通用语言。
方便对接其他语言。
创建新的python环境-*Anaconda
其发行版本具有以下特点:
完全开源和免费。
包含了许多就行的科学数学工程和数据分析的python库。
全平台支持linux,windows,Mac OS X等等等特点。
6.)Anaconda Navigator:用于管理工具包和环境形用户界面,后续涉及的众多管理命令也可以在Navigator中手动实现。
Anaconda Prompt:Anaconda自带的命令行。
jupter Notebook:基于Web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
Spyder:一个使用python语言跨平台的科学运算集成开发环境。
7.) 常见的数据分析工具:
(1)Numpy库:python开源的数值计算。
(2)Pandas库:核心数据库。
(3)Matplotlip库:一个用在python中绘制数组的2D图形库。
(4)Seaborn库:基于Matplotlip的数据可视化工具。
(5)NLTK库:被称为"用自然语言进行游戏的神奇图书馆"。