R与Python手牵手：数据框的构建、读取与基本描述

最新推荐文章于 2022-08-09 09:08:10 发布

R语言中文社区

最新推荐文章于 2022-08-09 09:08:10 发布

阅读量636

点赞数

本文链接：https://blog.csdn.net/kMD8d5R/article/details/83747392

版权

本文介绍了如何在R和Python中构建、读取数据框，并进行基本的数据描述性分析。通过比较，阐述了两种语言在数据框操作上的异同，包括数据框的构建方式、读取CSV文件的方法以及缺失值的表示。此外，还提到了R中的tidyverse框架和Python的pandas模块在处理数据时的不同特点。

摘要由CSDN通过智能技术生成

在双11免费Get新知识的人，才是最会花钱的人，也将是最会赚钱的人!

别的专场拼消费，唯有天善学院，投资你的未来！

▲详情点击▲

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。

邮箱：huang.tian-yuan@qq.com

任务目标

这次任务目标是：1.在编程环境内创建数据框；2.在本地导入csv文件；3.进行最基本的数据描述性分析。在开始上代码之前，有必要对数据框这种数据结构进行一定的解释。数据框就是典型的关系型数据库的数据存储形式，每一行是一条记录，每一列是一个属性,最终构成表格的形式，这是数据科学家必须熟悉的最典型的数据结构。

Python

在Python中要使用数据框的类型，需要加载pandas模块。

#加载包 import pandas as pd

构建数据框

data = {'year': [2010, 2011, 2012, 2010, 2011, 2012, 2010, 2011, 2012], 'team': ['FCBarcelona', 'FCBarcelona', 'FCBarcelona', 'RMadrid', 'RMadrid', 'RMadrid', 'ValenciaCF', 'ValenciaCF', 'ValenciaCF'], 'wins': [30, 28, 32, 29, 32, 26, 21, 17, 19], 'draws': [6, 7, 4, 5, 4, 7, 8, 10, 8], 'losses': [2, 3, 2, 4, 2, 5, 9, 11, 11] } football = pd.DataFrame( data, columns=['year', 'team', 'wins', 'draws',