数据分析
求知者_123
这个作者很懒,什么都没留下…
展开
-
pandas之groupby
import pandas as pdpath = 'https://raw.githubusercontent.com/HoijanLai/dataset/master/PoliceKillingsUS.csv'data = pd.read_csv(path,index_col=None)data.head()`` name date race ...原创 2019-11-20 17:58:48 · 338 阅读 · 0 评论 -
pandas之删除函数drop()
import pandas as pdimport numpy as npdf=pd.DataFrame(np.arange(12).reshape(3,4),index=list('EFJ'),columns=list('ABCD'))`#### 删除列(方法一)df.drop(columns=list('AB'))`` C DE 2 3 F 6 7 J 10 11 ### ...原创 2019-11-19 17:51:37 · 479 阅读 · 0 评论 -
10种常用数据分析方法
道家强调四个字,叫“道、法、术、器”。 层次区别: “器”是指物品或工具,在数据分析领域指的就是数据分析的产品或工具,“工欲善其事,必先利其器”; “术”是指操作技术,是技能的高低、效率的高下,如对分析工具使用的技术(比如用Excel进行数据分析的水平); “法”是指选择的方法,有句话说“选择比努力重要”; “道”是指方向,是指导思想,是战略。 在数...原创 2018-12-07 16:15:57 · 18677 阅读 · 0 评论 -
python DataFrame类型数据排序问题
1、首先随机生成一个4*4数组,为DataFrame类型import pandas as pdimport numpy as npdata = pd.DataFrame(np.random.randn(4,4),columns=['a','b','c','d'])dataOut[24]:[24]: a b c d 0 -1.827002 ...原创 2018-06-15 17:00:47 · 3525 阅读 · 0 评论 -
Python 数据清洗之缺失数据滤除dropna()
实际应用中,在得到原始数据时,经常碰到数据缺失问题,对数据进行加工或清洗就非常有必要了import numpy as npfrom numpy import nanimport pandas as pddata=pd.DataFrame(np.arange(3,19,1).reshape(4,4),index=list('abcd'))print(data)print(data.i...原创 2018-07-11 20:04:59 · 29351 阅读 · 2 评论 -
pandas 之数据合并concat
import pandas as pds1=pd.Series(['a','b'])s2=pd.Series(['c','d']) concat( ) 参数如下:concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, ve...原创 2018-07-09 18:16:37 · 436 阅读 · 0 评论 -
python 数据合并函数merge( )
python中的merge函数与sql中的 join 用法非常类似,以下是merge( )函数中的参数:merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), cop...原创 2018-07-08 22:32:45 · 158455 阅读 · 8 评论 -
python中DataFrame、Series数据类型 sort 排序
1、DataFrame类型排序DataFrame类型sort_index()函数参数如下:sort_index(self, axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, by=No...原创 2018-06-17 20:40:11 · 10084 阅读 · 0 评论 -
Python 数据清洗之缺失数据填充fillna()
缺失数据比较多的情况下,可以直接滤除,缺失数据比较少时,对数据进行填充就很有必要了。数据填充函数fillna()默认参数如下:fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)import numpy as npfrom numpy...原创 2018-07-12 12:17:06 · 58421 阅读 · 1 评论 -
pandas 统计数据频率函数value_counts
value_counts默认参数如下:value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)### Series类型import pandas as pddata=pd.Series(['python','java','python','php','php'...原创 2018-07-19 15:11:33 · 18632 阅读 · 2 评论 -
python之基础可视化
import matplotlib.pyplot as pltplt.plot([1,2,5],[4,5,6],color='g',linestyle='dashed')plt.axis([0,6,2,8]) ### axis([xmin, xmax, ymin, ymax])指定x,y的坐标范围plt.show()一、直线图--plot### plot直线图impo...原创 2018-07-20 23:55:54 · 304 阅读 · 0 评论 -
pandas 分组、聚合函数groupby
分组过程如下图所示:import numpy as npimport pandas as pddf=pd.DataFrame({'key1':list('aabbab'), 'key2':list('cccddd'), 'value1':np.arange(1,7), 'value...原创 2018-07-24 13:55:22 · 932 阅读 · 0 评论 -
python pandas 中 loc & iloc 用法区别
### 随机生DataFrame 类型数据import pandas as pdimport numpy as npframe = pd.DataFrame(np.random.rand(4,4),index=list('abcd'),columns=list('ABCD'))frame A B C D a 0.560094 0.3526...原创 2018-06-18 18:39:32 · 35063 阅读 · 0 评论 -
(转)线性回归统计指标 SSE、MSE、RMSE、R-square
SSE(和方差、误差平方和):The sum of squares dueto errorMSE(均方差、方差):Meansquared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficientof determinationAdjusted R-square:Degree-of-freedomadjusted coe...转载 2018-05-24 00:30:55 · 17714 阅读 · 0 评论