什么是数据分析
数据分析是指:用适当的统计分析方法将收集来的大量数据进行数据分析,提取有用信息和形成总结,并加以详细概括和研究的过程。
数据分析流程
数据收集---------->数据处理-------------->数据分析------------------>数据展现
jupyter的编辑区域
shift+enter :运行单元格
enter:编辑单元格
esc : 命令模式
在命令模式下输入Y :切换单元格;输入H:查看所有的快捷命令
Insert + Insert Cell Above : 在单元格上方插入一个新的单元格
file + Download as : 导出所写的东西
关于Anaconda
Anaconda 是一个可以便捷获取和管理包,同时对环境进行统一管理的发行版本,它包含了conda,python在内的超过180个科学包及其依赖项。
特点:
-
包含了众多流行的科学,数学,工程和数据分析的python库
-
完全开源和免费
-
额外的加速和优化是收费的,但对于学术用途,可以申请免费的License
-
全平台支持linux,Windows,Mac OS X
Anaconda3目录下的组件:
-
Anaconda Navigator: 用于管理工具包和环境的图形用户界面。
-
Jupyter Notebook: 基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
-
Anaconda Prompt:Anaconda自带的命令行
-
Spyder:一个用python语言,跨平台的科学运算集成开发环境。
查看安装包信息:list 命令 conda list
查找包:search命令 conda search --full-name 包的全名 例如 conda search --full-name python
安装包:install命令 conda install --name env_name package_name 例如 conda install --name python3 pandas
卸载包:remove命令 conda remove --name env_name packagea_name
更新包:update命令 conda update --all 例如 conda update numpy
常用的数据分析工具
NumPy库
NumPy是Python开源的数值计算扩展工具,它提供了Python对多维数组的支持,能够支持高级的维度数组与矩阵运算。
Pandas库
Pandas库是一个基于NumPy的数据分析包,是为了解决数据分析任务而创建的
Matplotlib库
Matplotlib是一个用在Python中绘制数组的2D图形库,虽然它起源于模仿Matlab图形命令,但它独立于Matlab,是Python中最出色的图形库。
Seaborn库
Seaborn是Python中基于Matplotlib的数据可视化分析工具,它提供了很多高层封装的函数,帮助数据分析人员快速绘制美观的数据图像
Python做数据分析的优势
-
语法简单精炼,适合初学者入门
-
拥有一个巨大且活跃的科学计算社区
-
拥有强大的通用编程能力
-
人工智能时代的通用语言
-
方便对接其他语言
第二章一些习题的答案
在NumPy中,可以使用数组对象ndarray进行一些科学计算
NumPy的 数组类型 是由 一个类型名和元素位长的数字组成的
如果两个数组的大小不同,则它们进行运算时会出现广播机制(这里强调一下数组广播的条件是:数组某一维度等长或者其中一个数组某一维度为1)
花式索引是NumPy的一个术语,是指用整数数组或者列标进行索引。
矢量化运算:
大小相等的数组之间的任何运算都会应用到元素级,即只用于位置相同的元素之间,所得的运算结果组成一个新的数组
如下图所示:
简答题
1.创建一个数组,数组的shape为(5,0),元素都是0
arr = np.zeros(5)
arr
2.创建一个表示国际象棋棋盘的8×8数组,其中,棋盘的白格用0填充,棋盘黑格用1填充
arr_1 = np.zeros((8,8),dtype=int)
arr_1[1::2,0::2]=1
arr_1[0::2,1::2]=1
arr_1