"""数据载入、存储及文件格式"""
"""
输入和输出常用的类型:读取文本文件及硬盘上其他更高效的格式文件、从数据库载入数据、与网络资源进行交互
"""
"""
pandas有些函数将文本数据转换为DataFrame的机制,这类函数的参数主要有一下几种类型:
索引、类型推断和数据转换、迭代、未清洗数据问题
"""
import pandas as pd
"""
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
"""
df1 = pd.read_csv("C:\\Users\\w\\Desktop\\1.csv.text")
print(df1)
df11 = pd.read_table("C:\\Users\\w\\Desktop\\1.csv.text",sep=',')
print("\n")
print(df11)
"""
1,2,3,4,hello
5,6,7,8,world
9,19,11,12,foo
"""
df2 = pd.read_csv("C:\\Users\\w\\Desktop\\2.csv.text",header=None)
print("\n")
print(df2)
df22 = pd.read_csv("C:\\Users\\w\\Desktop\\2.csv.text",names=['a','b','c','d','message'])
print("\n")
print(df22)
"""
key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16
"""
names=['a','b','c','d','message']
df222 = pd.read_csv("C:\\Users\\w\\Desktop\\2.csv.text",names=names,index_col='message')
print("\n")
print(df222)
parsed = pd.read_csv("C:\\Users\\w\\Desktop\\3.csv.text",index_col=['key1','key2'])
print("\n")
print(parsed)
"""
A B
aaa -0.12 -1.23
bbb 0.99 0.87
ccc -1.35 -4.55
"""
result = pd.read_table("C:\\Users\\w\\Desktop\\4.txt.text",sep='\s+')
print("\n")
print(result)
df = pd.read_csv("C:\\Users\\w\\Desktop\\1.csv.text",skiprows=[0,1])
print("\n")
print(df)
result = pd.read_csv("C:\\Users\\w\\Desktop\\5.csv.text")
print("\n")
print(result)
print("\n")
print(pd.isnull(result))
"""
na_values可以传入一个列表或一组字符串来处理缺失值
"""
result01 = pd.read_csv("C:\\Users\\w\\Desktop\\5.csv.text",na_values=['NULL'])
print("\n")
print(result01)
"""
在字典中,每列可以指定不同的缺失值
"""
sentinels = {'message':['foo','NA']}
result02 = pd.read_csv("C:\\Users\\w\\Desktop\\1.csv.text",na_values=sentinels)
print("\n")
print(result02)
pd.options.display.max_rows = 10
result = pd.read_csv("")
print(result)
pd.read_csv("",nrows=5)
chunker = pd.read_csv("", chunksize=1000)
print(chunker)
data = pd.read_csv("文件")
data.to_csv("文件")
import sys
data.to_csv(sys.stdout, sep='|')
data.to_csv(sys.stdout, na_rep = 'NULL')
data.to_csv(sys.stdout, index=False, header=False)
data.to_csv(sys.stdout, index=False, columns=['a','b','c'] )
import csv
f = open("C:\\Users\\w\\Desktop\\2.csv.tex")
reader = csv.reader(f)
for line in reader:
print(line)
"""
将文件处理为自己需要的格式
"""
with open("文件 ") as f:
lines = list(csv.reader(f))
header, values = lines[0], lines[1:]
data_dict = {h: v for h, v in zip(header, zip(*values))}
print(data_dict)
"""
将CVS方言参数传入csv.reader的关键字参数
在无法使用csv模块分隔符的文件,使用split方法或正则表达式方法re.split行拆分和其他清理工作
使用csv.writer 手动写入被分隔的文件
"""
"""
JSON 基本类型是对象(字典)、数组(列表)、字符串、数字、布尔值和空值,对象中所有键都必须是字符串
"""
import json
result = json.loads("文件")
asjson = json.dumps(result)
siblings = pd.DataFrame(result['siblings'], columns=['name','age'])
"""
pandas.read_json 自动将JSON数据集按照指定次序转换为Series或DataFrame
对DataFrame和Serier使用to_json方法:从 pandas中将数据导出为JSON
"""
"""
网络爬虫后续学习
"""
在这里插入代码片
"""
使用Python的内建的pickle序列模块进行二进制格式操作
to_pickle:将数据以pickle格式写入硬盘
read_pickle直接使用内建的pickle读取文件中的对象
pickle仅被推荐作为短期的存储格式
"""
"""
HDF:代表分层数据格式,每个HDF5文件可以存储读个数据集并且支持元数据
HDF5适用于处理不合适在内存中存储的超大型数据
HDFStore类作为接口
在本地处理大量的数据,PyTables和h5py
"""
"""
Pandas支持通过EXcelFile类或Pand。read_excel函数来读取存储在EXcel文件中的表格形数据
"""
xlsx = pd.ExcelFile("文件.xlsx")
frame = pd.read_excel("文件")
writer = pd.ExcelWriter("文件.xlsx")
frame.to_excel(writer,'sheet1')
在这里插入代码片