1、JSON文件
//JSON
//json对象(只能是字符串作为键(键不能重复,必须双引号包围),值可以为:字符串、数字、布尔值(true/false)、数组、对象、空值(null))->字典
{
"id":"1",
"type":"article",
"title":"working with JSON data",
"created":"2099-12-18T14:56:29.000Z"
}
//json数组(值可以为:字符串、数字、布尔值(true/false)、数组、对象、空值(null))->列表
[
{
},
{
}
]
//解析+转换(pandas):JSON数据->python数据(DataFrame)
import pandas as pd
wenjian = pd.read_json("文件路径")
2、CSV文件
//csv(类似于二维表,像一个表格,体积小)
注意:txt、csv、json都是纯文本
//用pandas转换为csv(用于大量数据集,可以看前几行)
import pandas as pd
df = pd_read_csv("csv文件路径")//读取csv文件
df = pd_read_csv("csv文件路径",header=None)//默认没有列名
df = pd_read_csv("csv文件路径",index_col="player_id")//把某一列作为标签索引
pd.set_option("display.max_columns",150)//当有很多列时导致展示不全,可以指定展示多少列将数据展示全
pd.set_option("display_max_colwidth",500)//当值很长时导致展示不全,用该方法规定将值小于500的都展示出来
df.head(3)//获取前3行(默认5行)
df.tail(2)//获取结尾2行(默认5行)
df.info()//获得DataFrame的概况(类型、索引的范围、列的数量等等)
df.describe()//计算DataFrame的统计信息(最大值、最小值、平均值等等)
df.sample(10)//选出随机选出的多行