pandas读取并处理csv文件

最新推荐文章于 2024-10-07 08:35:34 发布

RJzz

最新推荐文章于 2024-10-07 08:35:34 发布

阅读量3.7k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/jrrrj/article/details/81082262

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

CSV（来源于百度百科）
逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储你表格数据（数字和文本）。文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。通常搜索记录都有完全相同的字段序列。通常都是纯文本文件。

使用pandas科学计算库读取并处理CSV文件

# -*- coding:utf-8 -*-
import pandas as pd

VIDEO_INFO_PATH = '/home/rjzz/dataset/video/MSVD/MSR Video Description Corpus.csv'

# Series & DataFrame是Pandas中最常用的两个对象
# Series

if __name__ == '__main__':
    video_info = pd.read_csv(VIDEO_INFO_PATH)

    # shape 可以得到行数和列数
    print(video_info.shape)

    # index保存行索引，columns保存列索引
    print(video_info.columns)
    print(video_info.columns.name)

    # 行索引是一个表示多级索引的MultiIndex对象，每级的索引名可以通过names属性存取
    print(video_info.index)
    print(video_info.index.names)

    # DataFrame对象有两个轴，第0轴为纵轴，第一轴为横轴
    # []运算符可以通过索引标签获取指定的列，当下标是单个标签时，所得到的是Series对象
    # 而当下标是列表时，则得到一个DataFrame对象
    video_id = video_info['VideoID']
    video_object = video_info[['VideoID', 'Start', 'End']]

    # 进行去重操作
    video_object = video_object.drop_duplicates()
    print(video_object)
    print(video_object.values)
    # video_test = video_info[video_info['VideoID'].unique()]

    # .loc[]可通过索引标签获取指定的行，或指定行的某个元素
    # 因为这里没有行索引，所以这里报错video_one = video_info.loc['mv89psg6zh4']

    s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
    print(u" index", s.index)
    print(u" values", s.values)
    print(s[1:3])
    print(s['b':'d'])