Python & 数据分析学习笔记[第2篇]

资料:Python for Data Analysis.pdf [英文版]


Chapter1 Preliminaries 热身章节

使用Python 做数据分析需要的软件包:NumPy, IPython, matplotlib, and pandas (其中,IPython 是开发工具,NumPy, pandas 是数据结构和算法部分,matplotlib 顾名思义是可视化工具)。

[darkni] 这一套软件,包括Python 语言,IPython开发工具,以及NumPy 等各种支持库构成了 Python Ecosystem, 可以用于解决数据分析领域各种问题。

这一章介绍了这些软件包,还有安装方法。


Chapter2 Introductory Examples 热身章节

介绍了三个例子:1.usa.gov data, MovieLens 1M Data Set , 和 US Baby Names 1880-2010 ,通过实例的方式分享如何使用Python Ecosystem 解决现实的数据分析问题。

[darkni] 学习方法:随着例子,一个一个地练习。

思路:


第一步:理解现实世界中的数据

—— 获取数据,理解数据格式、涵义。也可能需要和数据库打交道。

第二步:准备数据

—— ETL 的过程,工作量大、繁、碎

第三步:转换数据

—— 通过统计、分组等方法,将原始数据转换为用于数据分析的新的数据集。依旧是 ETL 的过程。

第四步:建模和计算

—— 开始真正的数据分析之旅。

第五步:可视化

—— 以图表、结论等形式展示数据分析的结果。

[darkni] 全部练习后,再补充一个介绍博客。


Chapter3 IPython: An Interactive Computing and Development Environment

—— 鸡肋章节,介绍 IPython 的一些用法。内容通用,与数据分析的本质没什么关联。


Chapter4 NumPy Basics: Arrays and Vectorized Computation

—— 介绍 NumPy 软件包的用法,继续鸡肋。

NumPy 最关键的是 ndarray 即多维数组。数据分析的基础是数据,那么数据在Python 里从计算机的视角(数据结构)以  ndarray  进行操作。

这一章就是介绍如何操作 ndarray 和普通的数组(list)。

对 Matlab 熟悉的童鞋,ndarray 和矩阵概念上是一致的,操作上需要注意的 ndarray 从 0 开始索引,还有范围访问是: [ ) 的方式,左闭区间,右开区间。


[待续...]

已标记关键词 清除标记
相关推荐
【为什么还需要学习C++?】 你是否接触很多语言,但从来没有了解过编程语言的本质? 你是否想成为一名资深开发人员,想开发别人做不了的高性能程序? 你是否经常想要窥探大型企业级开发工程的思路,但苦于没有基础只能望洋兴叹?   那么C++就是你个人能力提升,职业之路进阶的不二之选。 【课程特色】 1.课程共19大章节,239课时内容,涵盖数据结构、函数、类、指针、标准库全部知识体系。 2.带你从知识与思想的层面从0构建C++知识框架,分析大型项目实践思路,为你打下坚实的基础。 3.李宁老师结合4大国外顶级C++著作的精华为大家推出的《征服C++11》课程。 【学完后我将达到什么水平?】 1.对C++的各个知识能够熟练配置、开发、部署; 2.吊打一切关于C++的笔试面试题; 3.面向物联网的“嵌入式”和面向大型化的“分布式”开发,掌握职业钥匙,把握行业先机。 【面向人群】 1.希望一站式快速入门的C++初学者; 2.希望快速学习 C++、掌握编程要义、修炼内功的开发者; 3.有志于挑战更高级的开发项目,成为资深开发的工程师。 【课程设计】 本课程包含3大模块 基础篇 本篇主要讲解c++的基础概念,包含数据类型、运算符等基本语法,数组、指针、字符串等基本词法,循环、函数、类等基本句法等。 进阶篇 本篇主要讲解编程中常用的一些技能,包含类的高级技术、类的继承、编译链接和命名空间等。 提升篇: 本篇可以帮助学员更加高效的进行c++开发,其中包含类型转换、文件操作、异常处理、代码重用等内容。
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页