import pandas as pd #数据分析与挖掘库
'''
Series #index 默认值为0 1 。。。 #类似于表格的行或者列
DataFrame 类似于表格
'''
#以数组形式创建数据框
a = pd.Series([8,9,2,1])
a = pd.Series([8,9,2,1],index=['one','two','three','four']) #指定索引
pd.DataFrame([[2,3,4,5],[23],[43],[33],columns=[])#注意,默认行号列号起始只为0
#字典形式
pd.DataFrame({'one':4,'two':[2,4,5]}) #1有1个数但2有3个
#但为了对齐,系统默认填充为444 )
pd.DataFrame({'two':list(str(245)) #等效于上面的
#操作
d.head() #调取头部数据,默认前五行,()内加参数取几行
d.tail() #尾部
d.describe() #统计数据 其中25% 50% 75% 为分位数
d.T #行列转置,行变列 列变行
d.shape #获得行列信息
d.values[][] #第几行第几列
d.sort_values(by='行或列的index值')#排序
#从MySQL数据库中取数据
import pymysql
conn=pymysql.connect(host='',user='root',passwd='root',db='名字')
#创建连接 主机地址:本地为127.0.0.1;用户:;数据库名
sql = "select*from 名字" #筛选
k = pd.read_sql(sql,conn)
#导入csv
pda.read_csv('路径') #其他形式文件以此类推
#导入HTML中的表格
pd.read_html('网址')
#导入txt
pd.read_table('路径')
#写出数据
csv.to_csv('路径', encoding='utf-8', index=False) #不写出索引列
#读取指定行和列
Data = pd.read_csv(r'C:\Users\sxxzc\Desktop\test.csv', \
usecols=['id', 'name', \
nrows=2])#读取id 和name两列,只读前两行
#分块儿读取
Data = pd.read_csv(r'C:\Users\sxxzc\Desktop\test.csv', chunksize=900)
#如4500行的数据,这里分了5块儿
#然后再全部读取
pd.concat(Data, ignore_index = True)
#3、导入导出数据
最新推荐文章于 2019-11-20 13:48:01 发布