Python数据分析笔记(一) windows数据分析常用工具(Anaconda)与入门书介绍

一: 使用发行版Anaconda进行Python相关软件的安装与执行
  • Anaconda含有许多免费的科学计算和数据科学软件包,Anaconda Python的下载位置 (http://continuum.io/downloads.html),请依照使用的操作系统(OS)下载安装;
  • 跟随安装的指示进行安装。Anaconda内附conda的软件包管理器,它可以管理Anaconda发行版,也就 是说conda可以用來安装新软件包或更新旧的软件包。除了conda的软件包管理器, pip 也是常用的软件包 管理器。
  • 安装完后,Windows用户可以在窗口功能上选取执行相应需求
二:Anaconda功能强大,简单介绍Jupyter Notebook
  • Jupyter Notebook 是一个基于HTML环境下的笔记本式接口。 它是从IPython shell演进而 來,但是提供了一个以小方格单元(cell)为基础的环境,交互性非常好,结构化的组织方式与结构化的计算编录。虽然使用Web浏览器作为图形界面,但是Jupyter Notebook通常在本地运行,也就是说与执行浏览器的计算机为同地进行。要启动新的Jupyter Notebook,请先选择存储笔记本的目录, 然后执行以下命令:(比如我的工作目录假设在D盘)
  • 开始 - 》所有程序 -》Anaconda3 -》 Anaconda Prompt

  • 结果如下图

  • 可以在上面写书,跑代码啊都可以,比如打开了《Python for Data Analysis》第二章的代码(下面介绍入门书时有链接,是.ipynb 形式的文件,都可以用jupyter notebook打开)
  • 几个常用键盘快捷键:
Ctrl + Enter :执行该单元格
Shift + Enter :执行该单元格后,跳到下一个单元格
Alt + Enter :执行该单元格后,在下面插入一个新的单元格
Ctrl + s :储存笔记本 要显示所有键盘快捷键列表可按 h 键來显示它们。
三:基本的Python軟件包介紹
Numpy
  • NumPy是Numerical Python的缩写,长期以來一直是Python数值计算的基石。它提供了大多数涉及数据科学 应用所需的数据结构、算法和功能库。 NumPy包含以下内容: 快速高效的多维数阵列(组对)物件(array object)ndarray。 提供阵列或阵列间的数学运算或依元素(element-wise)计算的函数。 用于读取和写入基于阵列的数据集(表格,如Excel)到磁盘的工具。 提供线性代数(linear algebra)运算,傅里叶变换(Fourier transform)和随机数(random number)的生成。 提供C语言API,使得原生的C或C ++程序代码可以取得NumPy的数据结构和计算功能。也就是说使用C或 Fortran编写的函数库,可以对存储在NumPy数组中的数据进行操作,而无需将数据复制到某些其他内存 表示中。因此,许多用于Python的数值计算工具要么将NumPy阵列作为主要数据结构,要么与NumPy进 行无缝的相互操作。
Pandas
  • Pandas的功能强大而且是个具高效的数据分析环境。Pamdas的数据对象主要是DataFrame以及Series。 DataFrame是个有列和行标签的列表式(tabular),数据结构就,像Excel的工作表格(spreadsheets)一样。 Series则是一维卷标化阵列对象,适合时间序列的数据处理。Pandas将NumPy的高性能阵列计算、工作表格 (如Excel spreadsheets)以及关聯式数据库(如SQL)等的数据处理功能融为了一体。Pandas提供了复杂的索引 功能(indexing),以便轻松重塑(reshape),切片和切块(slice and dice),执行聚合(aggregations)以及选择数 据子集合(subset)。由于数据的清理、处理以及准备是数据分析中的一项重要技能,Pandas是个非常有用的 软件包。
Matplotlib
  • matplotlib是用于生成绘图和其他二维数据可视化的最流行的Python软件包。虽然Pythont程序设计师还可以 使用其他可视化软件包,但matplotlib是最广泛使用的,而且与Pandas也有很好的整合。
SciPy
  • Scipy 是处理科学的软件包。它提供了诸如积分、线性代数、函数优化、讯号处理、疏松矩阵的求解、整合 Fortran的数值分析函数库、连续或离散的统计概率分布函数以及叙述性及统计推论等科学解决方法。
前15名在数据科学中最常用的库
四:数据分析入门书
A - Python for Data Analysis, 2nd Edition
  • 这本书的程序代码在Github (https://github.com/wesm/pydata-book)可以找到,而且可以免费自由使用。中、英 文版的说明都有。
  • 作者Wes McKinney是Python Package - Pandas的原创者,所以书中关于pandas的讲解也是最实用的部分
  • 使用Anaconda Python发行版,内含有其他一些需要的Python软件包
  • 除了以Pandas的介绍外,也涉及到scipy, statsmodels和scikit-learn软件包,这些软件包都跟Data Science的 应用,习习相关。
  • 有中文书,鼓励看英文。
B - Python for Finance, 2nd Edition
C - Mastering Pandas for Finance
五:补充
常用conda 命令
conda help :显示conda命令列表。
conda list :列出当前环境中安装的所有软件包。
conda info :显示系统信息。
conda env list :显示安装的环境列表。当前激活的是用星号“*”标记的。
conda install somepackage :安装一个Python软件包(用你想安装的软件包名称替换 somepackage )。
conda install somepackage = 0.7 :安装特定版本的软件包。
conda update somepackage :更新一个Python软件包到最新的可用版本。
conda update anaconda :更新所有软件包。
conda update conda :更新conda本身。
conda update --all :更新所有软件包。
conda remove somepackage :卸除一个Python包。
conda remove -n myenv --all :删除名为 myenv 的环境(将其替换为您想要卸除的环境名称)。 conda clean -t :删除安装和更新后留下的旧tarballs(打包工具)。
一些关于Anaconda的參考文件
有关Jupyter Notebooks的范例
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值