pandas对csv操作基础学习

以下操作我使用的python版本为3.6.5
导包

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

读取csv文件

credits = pd.read_csv('D:/BaiduNetdiskDownload/tmdb-movie-metadata/tmdb_5000_credits.csv')
movies = pd.read_csv('D:/BaiduNetdiskDownload/tmdb-movie-metadata/tmdb_5000_movies.csv')

熟悉表的基础信息

#查看表的基本信息
credits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 4 columns):
movie_id    4803 non-null int64
title       4803 non-null object
cast        4803 non-null object
crew        4803 non-null object
dtypes: int64(1), object(3)
memory usage: 150.2+ KB
#查看前10行
credits.head(10)
#查看后10行
credits.tail(10)
#查看列名
credits.columns
#查看表的值
credits.values
#查看行名
credits.index
#查看表5-10行,2-5列
credits.ix[5:10, 2:5]
#查看表的维度(多少行多少列)
movies.shape

对数据的筛选

#筛选出movie_id < 20的数据
credits[credits.movie_id < 20]
#movie_id < 20 并且 title = 'Star Wars'
credits[(credits.movie_id < 20) & (credits.title == 'Star Wars')]
#movie_id < 20 或者 title = 'Star Wars'
credits[(credits.movie_id < 20) | (credits.title == 'Star Wars')]

查看表的统计描述

credits.describe()

	movie_id
count	4803.000000
mean	57165.484281
std	88694.614033
min	5.000000
25%	9014.500000
50%	14629.000000
75%	58610.500000
max	459488.000000

#对某列进行排序,默认升序

credits.sort_values(by='movie_id')

未完待继续。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值