- 将用户所自己填写或者爬虫爬下来的日期数据转化为DataFrame中的日期格式
data1["日期"]=pd.to_datetime(data1["日期"])
- 将日期属性变为主要排序索引,然后可以利用loc进行以日期为单位的数据查询
data1.set_index(pd.to_datetime(data1["日期"]),inplace= True)
- iloc是按照真正的行数来取数据,并不管当时数据的index到底是多少
a=data.iloc[1:,:]
- 获取2018年中每月月初数据,并筛选,其中index.month可以换为index.week(周)index.quarter(季)
data_min_2018=data_2018.groupby(data_2018.index.month)["日期","中间价"].min()
- 如果2张表的其他属性一样,只有一个日期属性不一样,我们可以用append来连接2张表,仅限2张,不可多表连接
r= data_min_2018.append(data_min_2019)
r=r.append(data_min_2020)
- 由于我们导入的表的行数或者列数过多,Pycharm可能显示不全,这个时候我们需要设置pandas的特定变量
import os
import pandas as pd
import numpy as np
#设置显示的最大列、宽等参数,消掉打印不完全中间的省略号
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)
- 关于utf-8解码不行的时候,可以利用txt重新储存,然后选择asin格式储存,之后解码的时候用GBK解码
data_xidian=pd.read_csv("XXXXX.csv",encoding = 'GBK')
- 矩阵转置可以用XXXXX.T来完成转置操作
x=x.iloc[:,1:].T