数据科学
追枫萨
更厉害的大人和更可爱的小孩...
展开
-
pandas 中DataFrame新增行及global变量的使用
Global变量在函数体或类外定义的变量,若想在函数体或类中使用,必须先声明使用的是体外global变量,声明格式:global 变量名import pandas as pdimport numpy as npimport math#global变量df_result=pd.DataFrame(columns=['LABELS','DISTANCE'])#计算距离def...原创 2019-11-23 11:41:00 · 2795 阅读 · 0 评论 -
Pandas 中DataFrame的groupby()计数、groupby()取样及reset_index()的使用
什么是groupby以下为对DataFrame对象按A进行分组操作,图片来源。内容目的DataFrame对象按照指定列["LNG","LAT"]分组计数,并将分组计数结果(包括指定列及计数值)写入csv文件中过程代码一:import pandas as pddef weekFlow(): path="./group_test.csv" ...原创 2019-11-21 19:14:25 · 22118 阅读 · 2 评论 -
Pandas选取/删除某列含有指定值的行
方法df['列名'].isin([指定值]) csv内容测试import pandas as pdif __name__=="__main__": path = "./test.csv" df = pd.read_csv(path, header=0, names= ["DEVICE_ID"...原创 2019-11-01 11:28:43 · 6973 阅读 · 1 评论 -
Pandas统计指定列不重复的值的数目
方法方法: DataFrame.duplicated(subset = None,keep =‘first’ )返回boolean数组 一个bool值代表一行参数: subset:用来指定特定的列,默认所有列 keep:{‘first’,‘last’,False},默认’first’ first:标记重复,True除了第一次出现。 last:标记重复,Tr...原创 2019-10-31 19:16:51 · 9556 阅读 · 0 评论 -
Navicat将数据库中表导出为csv文件,导出的csv文件不含列索引
步骤选中表->右击->导出向导->选择列、保存路径->开始其中导出的csv文件不含列索引,故用pandas读取该csv文件时,命令:#header=None代表csv文件无列索引,有列索引时忽略列索引用header=0df=pd.read_csv(path,header=None,names=['CAPTURE_TIME','DEVICE_ID','LNG'...原创 2019-10-31 18:03:57 · 1779 阅读 · 0 评论 -
Numpy基本操作
1. Bool数组选取某二维矩阵些行,并对选取的行每列求均值if __name__=="__main__": data=[1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4] data=np.reshape(data,(4,4)) b=[True,False,True,False] data_=np.zeros(data.shape) ...原创 2019-10-29 15:09:14 · 99 阅读 · 0 评论 -
Pandas基础
1.使用pandas从一个csv文件中筛选部分数据import pandas as pddf1 = pd.read_csv('1.csv')df2 = pd.read_csv('2.csv')idx_for_df1 = df1['列标'].isin(df2['列标']) # 使用DataFrame.isin 筛选列标字符一样的行df_final = df1[idx_for_...原创 2019-10-12 13:07:30 · 795 阅读 · 0 评论