- 读取CSV文件
from pandas import read_csv;
df = read_csv('D:\he.csv')
print(df)
返回的是dataframe类型的文件,可通过dos命令行直接输出。
2.输出CSV文件
from pandas import DataFrame;
df = DataFrame({
'age': [21, 22, 23],
'name': ['KEN', 'John', 'JIMI']
});
df.to_csv('D:\df.csv')
3.清除数据结构中值为空的数据
from pandas import read_csv;
df = read_csv('D:|\ data.csv')
newDF = df.drop_duplicates();
返回一个新的dataframe。
4.清除字符串数据手中的空格。
from pandas import read_csv;
df = read_csv('D://PA//4.5//data.csv')
newName = df['name'].str.strip();
#选择name这一列(类型为series),将其转换为字符串,然后调用strip()函数清除该列#数据中的空格。
df['name'] = newName;
5.切割数据
from pandas import read_csv;
df = read_csv("D:\data.csv");
df['tel'] = df['tel'].astype(str);
#先选取tel这一列,然后将这一列里面的数据转换为str类型。
#运营商
bands = df['tel'].str.slice(0, 3);
df['tel'].str 返回的类型为class 'pandas.core.strings.StringMethods'
#地区
areas = df['tel'].str.slice(3, 7);
#号码段
nums = df['tel'].str.slice(7, 11);
6.字段拆分
from pandas import Series;
from pandas import DataFrame;
from pandas import read_csv;
df = read_csv("D:\\Python\\3.2\\2.csv");
newDF = df['name'].str.split(' ', 1, True);
#split()第一个参数表示用于分割的字符串,第二个表示分割为几列,数字1表示分为两列,#第三个表示是否为dataframe,否则为series。
newDF.columns = ['band', 'name'];
7.数据筛选
import pandas;
from pandas import read_csv;
df = read_csv("D://PA//4.8//data.csv", sep="|");
df[df.comments>10000];
df[df.comments.between(1000, 10000)]
df[pandas.isnull(df.title)]
df[df.title.str.contains('台电', na=False)]
#na表示不处理空值。
df[(df.comments>=1000) & (df.comments<=10000)]
8.合并CSV为dataframe
import pandas;
from pandas import read_csv;
df1 = read_csv("D://PA//4.10//data1.csv", sep="|");
df2 = read_csv("D://PA//4.10//data2.csv", sep="|");
df3 = read_csv("D://PA//4.10//data3.csv", sep="|");
df = pandas.concat([df1, df2, df3])
9.合并字段
from pandas import read_csv;
df = read_csv(
"D://PA//4.11//data.csv",
sep=" ",
names=['band', 'area', 'num']
);
df = df.astype(str);
tel = df['band'] + df['area'] + df['num']
#该段代码就是在合并之前拆分的Tel。
10.合并数据框
import pandas;
from pandas import read_csv;
items = read_csv(
"D://PA//4.12//data1.csv",
sep='|',
names=['id', 'comments', 'title']
);
prices = read_csv(
"D://PA//4.12//data2.csv",
sep='|',
names=['id', 'oldPrice', 'nowPrice']
);
itemPrices = pandas.merge(
items,
prices,
left_on='id',
right_on='id'
);
日期: