利用Python进行数据分析——第一章:重要Python库安装配置

一. NumPy

NumPy全称为Numerical Python,是Python科学计算的基础包。提供功能有:

  • 快速高效的多维数组对象ndarray;
  • 用于对数组执行元素级计算及直接执行数学运算的函数;
  • 用于读写硬盘上基于数组的数据集工具;
  • 线性代数运算、傅立叶变换与随机数生成;
  • 用于将C、C++、Fortran代码集成到Python的工具;

二. pandas
提供了使我们能快速便捷地处理结构化数据的大量数据结构与函数。它是使得Python成为强大而高效的数据分析环境的重要因素之一。
三. matplotlib
最流行的用于绘制数据图表的Python库。
四. IPython
是Python科学标准工具集的组成部分,将所有其它东西联系在一起。是一个增强的Python shell,主要用于交互式数据处理和利用matplotlib对数据进行可视化处理。
五. SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合。与NumPy有机结合完全可以替代MATLAB的计算功能。
六. 安装配置
在Ubuntu下安装Python模块通常可以使用apt-get和pip命令。apt-get命令是Ubuntu自带的包管理命令,而pip则是Python安装扩展模块的工具,通常pip会下载扩展模块的源代码并编译安装。
Ubuntu 12.04中缺省安装了Python2.7.3,首先通过下面的命令安装pip,pip是Python的一个安装和管理扩展库的工具。
sudo apt-get install python-pip
安装Python开发环境,方便今后编译其他扩展库,占用空间92.8M:
sudo apt-get install python-dev
    一、NumPy,SciPy、pandas和matplotlib
通过apt-get命令可以快速安装这三个库:
sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-pandas
sudo apt-get install python-matplotlib
如果需要通过pip编译安装,可以先用apt-get命令安装所有编译所需的库:
sudo apt-get build-dep python-numpy
sudo apt-get build-dep python-scipy
然后通过pip命令安装:
sudo pip install numpy
sudo pip install scipy
sudo pip install pandas

    二、安装ipython

在Ubuntu下,安装ipython很简单:

$sudo apt-get install ipython

Ubuntu默认的python为2,所以如果要使用ipython3需要运行

$sudo apt-get install ipython3

如果想要使用ipython-qt,对于python2而言可以直接在软件中心中安装(当然,ipython也可以),对于ipyhon3-qt,则要麻烦一些。

$sudo apt-get source python-slip

$sudo apt-get python-qt4

然后对于新下载的源码,都进入源码目录后执行:

$sudo python3 configure.py

$sudo make

$sudo make install

另外可以安装IPython notebook:

sudo apt-get install ipython
sudo pip install tornado
sudo apt-get install libzmq-dev
sudo pip install pyzmq
sudo pip install pygments



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非常好的问题!以下是一些步骤,可以帮助您开始利用Python进行豆瓣影评的数据分析。 1. 安装必要的Python库 您需要使用Python编写爬虫程序,因此需要安装Requests和BeautifulSoup库来从网页中提取数据。您还需要安装pandas和matplotlib库来进行数据分析和可视化。 2. 确定您想要分析的内容 在豆瓣影评中,您可以分析电影的评级、评论数量、评论者的性别、年龄和评论内容等内容。因此,需要确定您想要分析哪些内容。 3. 编写豆瓣爬虫程序 使用Python编写爬虫程序,从豆瓣电影网站上爬取您想要分析的内容。您可以使用Requests库发送HTTP请求,并使用BeautifulSoup库解析HTML响应,提取所需的数据。请注意,您需要实现反爬机制以防止被禁止访问。 4. 保存数据到CSV文件 将提取的数据保存到CSV文件中,这样可以方便地进行数据分析。您可以使用pandas库读取CSV文件,创建数据框架并进行分析。 5. 数据分析和可视化 使用pandas和matplotlib库进行数据分析和可视化。您可以使用pandas库进行数据聚合、过滤和排序,并使用matplotlib库创建图表、直方图和饼图。 6. 结论和建议 根据您的分析结果,可以得出一些结论和建议。例如,如果发现电影评级与评论数量呈正相关关系,则可以建议电影制片人提高电影质量以增加评论数量。 希望这些步骤可以帮助您开始利用Python进行豆瓣影评的数据分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值