学python数据分析有什么建议_数据分析师养成(4):学习用Python进行数据分析(篇一基础认识)...

Python由于其灵活易于上手的特点,已经成为现在数据分析和机器学习的首选语言,在这篇文章和接下来的文章里,我将从Python语言的基本特点和原理和实际与应用出发,让读者能够在较短的时间熟悉了解如何用python控制、处理、整理、分析结构化数据,这是我的目的。

本文是《用Python进行数据分析》的第一篇,基础理论篇,不涉及太多实操,建议耐心阅读,对Python的语言能有一个初步并且正确的认识。

当然,学习好一门语言不是一朝一夕能够完成的事情,多学多练,持之以恒,为上策。

(VX公众号:人人都会数据分析,咨询建议可以留言)

(欢迎点赞,你们的支持是我持续更新的动力)

一、为什么要用Python进行分析,它有什么优点缺点?

Python在众多编程语言中能够脱颖而出取决于它的最大特点——拥有一个巨大而活跃的科学计算社区。在数据分析和交互、探索性计算以及数据可视化等方面,Python不可避免地接近其他开源和商业的领域特定编程语言/工具,如R、SAS等。但是由于Python有不断改良的库(pandas是我们主要要使用和学习的库)。使其成为数据处理任务的一大替代解决方案,而且结合其在编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。

除此之外,它还有另外一点你需要重要了解的特点,就是它独特的粘合和集成作用,它能够轻松集成C、C++以及Fortran代码,具有极高的适应性。而且,Python用处广泛,不仅适用于研究和原型构建,同时也适用于构建生产系统,它可以一种语言多种用途。也就是说,这是我们打开计算机世界和数据分析世界的一块极好的敲门砖,有效提高企业的生产率。

同时,虽然Python非常适合构建计算密集型科学应用程序以及各种各样的通用系统,但它对于不少场景仍然力有不逮。运行慢,由于Python时一种解释型编程语言,因此大部分Python代码都需要比用编译型(Java等)编写的程序运行要慢很多。这就要考虑时间与生产率哪个更重要了,程序员的时间通常比CPU的时间要值钱;但是在那些要求延迟非常小的应用程序中(例如高频交易系统),为了最大可能地优化效率,耗费时间使用诸如C++这样更低级、更低生产率的语言进行编程也是值得的。

对于高并发、多线程的应用程序而言,Python并不是理想的编程语言。这是因Python有一个叫做全局解释器锁的东西。

二、介绍几种Python比较重要的库

NumPy

NumPy(Numercial Python的简称)时Python科学计算的基础包,数据分析所用的库大部分都是基于NumPy构建的,它提供以下功能(有更多功能):nadarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组

用于对整组数据进行快速运算的标准数学函数(无需编写循环)

用于读写磁盘数据的工具以及用于操作内存映射文件的工具

线性代数、随机数生成以及傅里叶变换功能

用于集成由c、c++、fortran等语言编写的代码的工具

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有一个主要作用是作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python结构高效的多。此外,由低级语言(比如C)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。

pandas

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就能发现,它是使Python成为强大而高效的数据分析环境因素之一。pandas用的最多的对象就是DataFrame。

pandas兼具NumPy高性能的数组计算功能以及电子表格以及关系型数据库(如SQL)灵活的数据处理功能。它提供复杂精细的索引功能,以便更为快捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于金融行业地用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。

pandas这个名字本身源于panel data(面板数据,这是计量经济学中关于多维结构化数据集的一个术语)以及Python data analysis(Python数据分析)

matplotlib

最流行的用于绘制数据图表的Python表,与IPython结合得很好,因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的,可以利用会与窗口的工具栏放大图表中的某个区域或对整个图表平移浏览。

IPython

IPython是Python科学计算工具集的组成部分,它将其他所有其他的东西联系到一起,为交互式和探索式计算提供了一个强健而高效的环境。它是一个增强的Python shell,目的是提高编写、测试、调试Python代码的速度。

功能很全面,主要用于交互式数据处理和利用matplotlib对数据进行可视化处理。

我使用的可以就是IPython

SciPy

SciPy是一组专门解决科学计算中各种标准问题的包的集合。

三、下载安装和数据分析环境

Python的编写环境,推荐使用Anaconda。Anaconda是专业的数据科学计算环境,已经集成绝大部分包和工具,不需要多余的安装和调试。

Python版本建议3.0以上,我使用的版本是3.7,官网下载,Welcome to Python.org。

完成安装后,Win版本会多出几个程序,数据分析最常用的程序叫Jupyter,以前被称为IPython Notebook,是一个交互式的笔记本,能快速创建程序,支持实时代码、可视化和Markdown语言。

点击快捷方式,待运行完成后便会在浏览器里出现,创建了本地环境localhost:

单击New,选择Python,便能够创建我们的第一个程序:

在输入 print('橙子先生up'),并按shift+enter,到此为止,运行了我们的第一个Python程序,并且可以储存为.py、.ipynb等各种形式。

Jupyter界面由上部的工具栏和下面主体的输入区域组成,大家可以尝试熟悉一下。

第一篇教程就到这里了,下一篇具体介绍我们的NumPy库和pandas库,准备安装好一起敲代码吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值