系列文章目录
Python数据分析入门笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
小小社畜业余学习过程中的随笔,尽量坚持,加油!
一、Python数据分析学习之前的准备
1.设备和环境准备
安装Python3.9,Anaconda3,Pycharm,电脑可用空间>5GB,电脑4核以上,不建议用古董机操作,我2013年的双核古董机亲测带不动。
2.知识储备
要求具备一定编程基础及Python基础,最好对微积分和统计学常见算法也有所了解。缺编程的补编程,缺数学的边学边补数学。
求大神告诉我数学小白看哪个入门快?
编程小白推荐:黑马程序员Python小白快速入门教程——美女老师版
有基础的建议恶补:
- Python中与其他语言不同的地方,如**表示幂运算、and、or、not、in、not in等;基本输入输出方法各参数的含义;
- Python序列结构:列表、元组、字典、集合的定义、初始化及各种操作;
- Python函数部分:函数的定义、传参、调用、lambda、生成器等部分;
二、基本概念介绍
1. NumPy库
NumPy(Numerical Python)是Python语言的一个扩展程序库,主要用于数组计算。
功能包括:多维数组、线性代数、傅里叶变换、随机数生成等。
两种对象:N维数组对象 ndarray和ufunc函数。
2. Pandas库
Pandas是Python的一个数据分析包,
它的使用基础是Numpy(提供高性能的矩阵运算),
用于数据挖掘和数据分析,同时也提供数据清洗功能。
Pandas的优势:能读写各种格式的数据源,且返回的对象相同,便于统一处理。并且为时间序列分析提供支持。
3. Matplotlib 库
Matplotlib 是Python中使用最多的图形绘图库,可以创建静态, 动态和交互式的图表。常与NumPy库结合,广泛用于数据的可视化。
4. Seaborn库
Seaborn是一个Python数据可视化开源库。
建立在matplotlib基础上,并集成了pandas的数据结构。
Seaborn通过更简洁的API来绘制信息更丰富,更具吸引力的图像。
面向数据集的API,与Pandas配合使用起来比直接使用Matplotlib更方便。
5. Sklearn 库
sklearn(scikit-learn) 是基于 Python 语言的机器学习工具。
建立在 NumPy ,SciPy 和 matplotlib 基础上。
功能:数据挖掘和数据分析。具体包括数据的加载、划分、预处理、降维。
三、Jupyter Notebook
1. Jupyter Notebook介绍
Jupyter Notebook是一个开源Web应用程序,使用Jupyter Notebook可以创建和共享:
- 代码
- 数学公式
- 可视化图表
- 笔记文档
Jupyter Notebook用途
- 数据清理和转换
- 数值模拟
- 统计分析
- 数据可视化
- 机器学习等
Jupyter Notebook是数据分析学习和开发的首选开发环境。
2. Jupyter Notebook的使用
- 搜索Anaconda Prompt,并打开。
- 第二步:输入jupyter notebook,并回车执行,即可打开页面。
- 第三步:认识jupyter页面基本功能,我是新手,所以只关注了这几个地方。
- 第四步:新建文件啦!
- 第五步:退出jupyter
在Anaconda Prompt里面,按住Ctrl+C 键强制退出。
请教几个问题:强制退出之前,jupyter中是否需要logout或者quit?
如果不想强制退出,在jupyter中要如何操作?
3. Jupyter Notebook中最常用的快捷键
Jupyter的使用很方便,每次敲好一行或几行,就按一下Shift+Enter键,会自动执行本单元并且在后面新增一个空白区域可以继续输入。
如果写好了很多个代码块,也不需要顺序执行,可以直接单击要运行的地方,选中后按Ctrl+Enter键即可。
Shift-Enter:执行当前单元的代码,并跳转到下一个单元。如果当前是最后一个单元,则在后面新增一个单元并进入。这个操作类似点击主菜单的cell-run,或工具栏中的play运行按钮
Ctrl-Enter : 运行本单元
Alt-Enter : 运行本单元,在其下插入新单元
总结
例如:到现在,终于认识了这几个库,并且学会了jupyter的使用,成功迈出了第一步! 新手上路,欢迎各位补充指正!声明
本文资料来源于互联网和黑马程序员,侵删。