python文本数据相关性_最简单的关系——线性相关（python实践）

最新推荐文章于 2021-07-13 15:53:26 发布

weixin_39582480

最新推荐文章于 2021-07-13 15:53:26 发布

阅读量526

点赞数

文章标签： python文本数据相关性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39582480/article/details/111456190

版权

1 安装sklearn包

conda install scikit-learn

1.Numpy：

Numpy是python科学计算的基础包，它提供以下功能(不限于此)：

(1)快速高效的多维数组对象ndarray

(2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数

(3)用于读写硬盘上基于数组的数据集的工具

(4)线性代数运算、傅里叶变换，以及随机数生成

(5)用于将C、C++、Fortran代码集成到python的工具

2.pandas

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能，以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于金融行业的用户，pandas提供了大量适用于金融数据的高性能时间序列功能和工具。

DataFrame是pandas的一个对象，它是一个面向列的二维表结构，且含有行标和列标。

ps.引用一段网上的话说明DataFrame的强大之处：

Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。说了一大堆它的好处，要实际感触还得动手码代码。

3.matplotlib

matplotlib是最流行的用于绘制数据图表的python库。

4.Scipy

Scipy是一组专门解决科学计算中各种标准问题域的包的集合。

5.statsmodels： https://github.com/statsmodels/statsmodels

6.scikit-learn： http://scikit-learn.org/stable/

2 怎样导入要分析的数据

开始使用了一个错误的命令：from sklearn.cross_validation import train_test_split

显示ModuleNotFoundError: No module named 'sklearn.cross_validation'

幸好群里有大神提示：模块被移除，更正为：

from collections import OrderedDict

from sklearn.model_selection import train_test_split

weixin_39582480

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python文本数据相关性_最简单的关系——线性相关（python实践）

1 安装sklearn包conda install scikit-learn1.Numpy：Numpy是python科学计算的基础包，它提供以下功能(不限于此)：(1)快速高效的多维数组对象ndarray(2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数(3)用于读写硬盘上基于数组的数据集的工具(4)线性代数运算、傅里叶变换，以及随机数生成(5)用于将C、C++、Fortran代码集...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。