天池实验室|读取数据集的两种方式

最新推荐文章于 2025-04-28 14:36:48 发布

以秘

最新推荐文章于 2025-04-28 14:36:48 发布

阅读量1.1w

点赞数 3

分类专栏：天池实验室文章标签：天池实验室

本文链接：https://blog.csdn.net/songxiaolingbaobao/article/details/108195324

版权

天池实验室专栏收录该内容

1 篇文章

订阅专栏

读取挂载数据中的数据集

具体代码如下：

# 步骤1：
!ls datalab/

# 步骤2：
import os
os.chdir('/home/tianchi/datalab/75057')
print(os.getcwd())

# 步骤3：
import pandas as pd
import os
# 挂载数据中的数据集读取
os.chdir('/mnt/file/opensearch/documents/75057')
df=pd.read_excel('dataset-1.xlsx',sheet_name='Sheet1')
#获取最大行，最大列
nrows=df.shape[0]
ncols=df.columns.size
print('Max Rows:'+str(nrows))
print('Max Columns'+str(ncols))

核心是路径的写法：这里挂载数据不能直接找到文件名，需要去找到文件夹，才能找到具体数据集文件，所有实验室的数据访问都在/home/tianchi/tianchilab路径下

读取个人空间中的数据集

前提：在个人空间中新建文件夹：dataset，在该文件夹下上传数据集文件，名称为：dataset-1.xlsx

具体代码：

import pandas as pd
# 个人空间中的数据集读取
sExcelFile='/home/tianchi/myspace/dataset/dataset-1.xlsx'
df = pd.read_excel(sExcelFile,sheet_name='Sheet1')
#获取最大行，最大列
nrows=df.shape[0]
ncols=df.columns.size
print('Max Rows:'+str(nrows))
print('Max Columns'+str(ncols))

核心是路径的写法：/home/tianchi/myspace/dataset/dataset-1.xlsx，个人空间的数据都在/home/tianchi/myspace路径下