pandas读取并处理csv文件

CSV(来源于百度百科)
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储你表格数据(数字和文本)。文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常搜索记录都有完全相同的字段序列。通常都是纯文本文件。

使用pandas科学计算库读取并处理CSV文件

# -*- coding:utf-8 -*-
import pandas as pd

VIDEO_INFO_PATH = '/home/rjzz/dataset/video/MSVD/MSR Video Description Corpus.csv'

# Series & DataFrame是Pandas中最常用的两个对象
# Series

if __name__ == '__main__':
    video_info = pd.read_csv(VIDEO_INFO_PATH)

    # shape 可以得到行数和列数
    print(video_info.shape)

    # index保存行索引,columns保存列索引
    print(video_info.columns)
    print(video_info.columns.name)

    # 行索引是一个表示多级索引的MultiIndex对象,每级的索引名可以通过names属性存取
    print(video_info.index)
    print(video_info.index.names)

    # DataFrame对象有两个轴,第0轴为纵轴,第一轴为横轴
    # []运算符可以通过索引标签获取指定的列,当下标是单个标签时,所得到的是Series对象
    # 而当下标是列表时,则得到一个DataFrame对象
    video_id = video_info['VideoID']
    video_object = video_info[['VideoID', 'Start', 'End']]

    # 进行去重操作
    video_object = video_object.drop_duplicates()
    print(video_object)
    print(video_object.values)
    # video_test = video_info[video_info['VideoID'].unique()]

    # .loc[]可通过索引标签获取指定的行,或指定行的某个元素
    # 因为这里没有行索引,所以这里报错video_one = video_info.loc['mv89psg6zh4']

    s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
    print(u" index", s.index)
    print(u" values", s.values)
    print(s[1:3])
    print(s['b':'d'])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值