pandas
你欲何为R
千好万好,不如你好。
展开
-
【数据预处理 标准化】StandardScaler中的std参数和pandas中的std计算方式上的区别
StandardScaler把所有数据归一到均值为0方差为1的分布中 。适用于没有明显边界的情况;有可能存在极端数据值。计算公式: 其中S标准差的计算方式是numpy中的std方法,可以查看一下StandardScaler的文档StandardScaler??Init signature: StandardScaler(copy=True, with_mean=...原创 2019-11-28 12:34:29 · 2911 阅读 · 0 评论 -
【python groupby】分组聚合groupby的用法
对dataframe进行groupby之后得到的是一个groupby对象,不能直接打印输出,但可以对这个对象进行各种计算df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':np...原创 2019-11-26 16:46:25 · 7403 阅读 · 2 评论 -
【python pandas】重塑、透视、交叉:stack,unstack,pivot,pivot_table,crosstab
使用多层索引进行重塑stack、unstackdf = pd.DataFrame(np.arange(6).reshape((2,3)), index=pd.Index(['ohio','colorado'], name='state'), columns=pd.Index(['one','two','three'...原创 2019-11-25 19:20:13 · 790 阅读 · 0 评论 -
【python】创建路径、excel同时写入多个sheet表
创建路径import osdef create_path(pre_path): """创建目录 eg:'D:/pingfen/result' """ folder = os.path.exists(pre_path) # 判断是否存在文件夹如果不存在则创建为文件夹 if not folder: # makedirs ...原创 2019-11-25 15:45:25 · 2540 阅读 · 0 评论 -
【python小技巧】分块读取大文件、读取数据内容带引号的文本文件
# ===================== 逐块读取文本文件 ===========================nrows = 10 # 只读取一定行数的数据chunksize = 4 # 分块读取,返回一个可迭代对象TextFileReaderiterator = True # 返回一个可迭代对象,使用df.get_chunk(10)查看数据# ===============...原创 2019-11-25 15:00:26 · 964 阅读 · 0 评论 -
多个series合并成dataframe
import pandas as pddf = pd.DataFrame(list(zip(series_1, series_2)))原创 2019-01-30 19:12:39 · 19159 阅读 · 2 评论 -
pandas set_index和reset_index
1.set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引,drop为False,inplace为True时,索引将会还原为列df_a = p...原创 2019-01-10 11:26:48 · 581 阅读 · 0 评论 -
pandas.DataFrame.columns.format()和pandas.DataFrame.columns的区别
import pandas as pddf_a = pd.DataFrame(data=[['A', 'B', 'C'], ['A1', 'B1', 'C1']])df_a.columnsdf_a.columns.format()原创 2019-01-10 11:01:35 · 3075 阅读 · 0 评论 -
pandas操作数据库
使用sqlite3# 从数据库中读取数据。import sqlite3# sqlite3连接参数指定的数据库。如果数据库不存在,则会创建该数据库,然后再进行连接。# 存在则直接进行连接。该方法返回数据库的连接。con = sqlite3.connect("ttd.db")# 通过数据库连接对象的execute方法执行sql语句。con.execute("create table ...原创 2019-01-09 19:18:52 · 3117 阅读 · 1 评论 -
pandas合并数据
1.mergepd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False)...原创 2019-01-09 19:30:07 · 199 阅读 · 0 评论 -
pandas dataframe 提取行和列
import pandas as pddata = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})提取列单列data['a']多列data[['a', 'b']]使用 .loc或者 .iloc 提取第一个参数是行,第二个参数为列.loc为按标签提取, .iloc为按位置索引提取data...原创 2019-01-11 11:27:09 · 155045 阅读 · 6 评论 -
pandas修改列名
pandas读取数据之后经常需要修改列名,那么该怎么修改呢??import pandas as pda = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})1.简单粗暴a.columns = ['第一列', '第二列', '第三列']a 2.温柔一点的上面的方法修改列名必须是修改所有列名,在列比较少的情况下...原创 2019-01-11 10:25:53 · 9045 阅读 · 2 评论