python如何自学模块_python之panda模块理解与学习

来源:https://blog.csdn.net/qq_26591517/article/details/80041296

标签:pandas,Python,Woindows

收藏:株野

作者:ChasingdreamLY

日期:2018年04月22日 18:27:17

Pandas是Python的一个大数据处理模块。Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数据,并且Pandas使用轴标签来表示行和列。

DataFrame类:

DataFrame有四个重要的属性:

index:行索引。

columns:列索引。

values:值的二维数组。

name:名字。

构建方法,DataFrame(sequence),通过序列构建,序列中的每个元素是一个字典。

frame=DateFrame构建完之后,假设frame中有’name’,’age’,’addr’三个属性,可以使用fame["name’]查看属性列内容,也可以fame.name这样直接查看。

frame按照’属性提取出来的每个列是一个Series类。

DataFrame类可以使用布尔型索引。

groupby(str|array…)函数:可以使用frame中对应属性的str或者和frame行数相同的array作为参数还可以使用一个会返回和frame长度相同list的函数作为参数,如果使用函数做分组参数,这个用做分组的函数传入的参数将会是fame的index,参数个数任意。使用了groupby函数之后配合,size()函数就可以对groupby结果进行统计。

groupby后可以使用:

size():就是count

sum():分组求和

apply(func,axis=0):在分组上单独使用函数func返回frame,不groupby用在DataFrame会默认将func用在每个列上,如果axis=1表示将func用在行上。

reindex(index,column,method):用来重新命名索引,和插值。

size():会返回一个frame,这个frame是groupby后的结果。

sum(n).argsort():如果frame中的值是数字,可以使用sum函数计算frame中摸个属性,各个因子分别求和,并返回一个Series,这个Series可以做为frame.take的参数,拿到frame中对应的行。

pivot_table(操作str1,index=str2,columns=str3,aggfunc=str4)透视图函数:

str1:是给函数str4作为参数的部分。

str2:是返回frame的行名。

str3:是返回frame的列名。

str4:是集合函数名,有’mean’,’sum’这些,按照str2,str3分组。

使用透视图函数之后,可以使用.sum()这类型函数,使用后会按照index和columns的分组求和。

order_index(by,ascending):

返回一个根据by排序,asceding=True表示升序,False表示降序的frame

concat(list):将一个列表的frame行数加起来。

ix[index]:就是行索引,DataFrame的普通下标是列索引。

take(index):作用和ix差不多,都是查询行,但是ix传入行号,take传入行索引。

unstack():将行信息变成列信息。

apply(func,axis=0)和applymap(func):apply用在DataFrame会默认将func用在每个列上,如果axis=1表示将func用在行上。applymap表示func用在每个元素上。

combine_first(frame2):combine_first会把frame中的空值用frame1中对应位置的数据进行填充。Series方法也有相同的方法。

stack()函数,可以将DataFrame的列转化成行,原来的列索引成为行的层次索引。(stack和unstack方法是两个互逆的方法,可以用来进行Series和DataFrame之间的转换)

duplicated():返回一个布尔型Series,表示各行是否重复。

drop_duplicates():返回一个移除了重复行后的DataFrame

pct_change():Series也有这个函数,这个函数用来计算同colnums两个相邻的数字之间的变化率。

corr():计算相关系数矩阵。

cov():计算协方差系数矩阵。

corrwith(Series|list,axis=0):axis=0时计算frame的每列和参数的相关系数。

数据框操作

df.head(1) 读取头几条数据

df.tail(1) 读取后几条数据

df["date’] 获取数据框的date列

df.head(1)["date’] 获取第一行的date列

df.head(1)["date’][0] 获取第一行的date列的元素值

sum(df["ability’]) 计算整个列的和

df[df["date’] == "20161111’] 获取符合这个条件的行

df[df["date’] == "20161111’].index[0] 获取符合这个条件的行的行索引的值

df.iloc[1] 获取第二行

df.iloc[1]["test2’] 获取第二行的test2值

10 mins to pandas

df.index 获取行的索引

df.index[0] 获取第一个行索引

df.index[-1] 获取最后一个行索引,只是获取索引值

df.columns 获取列标签

df[0:2] 获取第1到第2行,从0开始,不包含末端

df.loc[1] 获取第二行

df.loc[:,’test1’] 获取test1的那一列,这个冒号的意思是所有行,逗号表示行与列的区分

df.loc[:,["test1’,’test2’]] 获取test1列和test2列的数据

df.loc[1,["test1’,’test2’]] 获取第二行的test1和test2列的数据

df.at[1,’test1’] 表示取第二行,test1列的数据,和上面的方法类似

df.iloc[0] 获取第一行

df.iloc[0:2,0:2] 获取前两行前两列的数据

df.iloc[[1,2,4],[0,2]] 获取第1,2,4行中的0,2列的数据

(df[2] > 1).any() 对于Series应用any()方法来判断是否有符合条件的

常用操作及结果

1、文件读取

首先将用到的pandas和numpy加载进来

import pandas as pd

import numpy as np

读取数据:

#csv和xlsx分别用read_csv和read_xlsx,下面以csv为例df=pd.read_csv("f:\1024.csv") 1

2

2、查看数据

df.head() ​#默认出5行,​括号里可以填其他数据1

2

3

3、查看数据类型

df.dtypes1

4、利用现有数据生成一列新数据

比如:max_time和min_time是现有的两列,现在业务需要生成一列gs,gs=max_time-min_time

df.["gs’]=df.["max_time’]-["min_time’]

#查看是否成功​df.head()1

2

3

5、查看基本统计量

df.describe(include="all") # all代表需要将所有列都列出1

2

通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式。在Python中,我们的操作如下:

import pandas as pd# Reading data locallydf = pd.read_csv("/Users/al-ahmadgaidasaad/Documents/d.csv")# Reading data from webdata_url = "https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"df = pd.read_csv(data_url)1

2

3

4

5

6

7

8

9

为了读取本地CSV文件,我们需要pandas这个数据分析库中的相应模块。

其中的read_csv函数能够读取本地和web数据。

# Head of the dataprint df.head()# OUTPUT Abra ApayaoBenguet Ifugao Kalinga0 1243 2934 148 3300 105531 4158 9235 4287 8063 352572 1787 1922 1955 1074 45443 17152 14501 3536 19607 316874 1266 2385 2530 3315 8520# Tail of the dataprint df.tail()# OUTPUT Abra Apayao Benguet Ifugao Kalinga74 2505 20878 3519 19737 1651375 60303 40065 7062 19422 6180876 6311 6756 3561 15910 2334977 13345 38902 2583 11096 6866378 2623 18264 3745 16787 169001

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

上述操作等价于通过print(head(df))来打印数据的前6行,以及通过print(tail(df))来打印数据的后6行。

当然Python中,默认打印是5行,而R则是6行。因此R的代码head(df, n = 10),

在Python中就是df.head(n = 10),打印数据尾部也是同样道理。

在Python中,我们则使用columns和index属性来提取,如下:

# Extracting column namesprint df.columns# OUTPUTIndex([u"Abra", u"Apayao", u"Benguet", u"Ifugao", u"Kalinga"], dtype="object")# Extracting row names or the indexprint df.index# OUTPUTInt64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30], dtype="int64")1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

数据转置使用T方法,

# Transpose dataprint df.T# OUTPUT 0 1 2 3 4 5 6 7 8 9 Abra 1243 4158 1787 17152 1266 5576 927 21540 1039 5424 Apayao 2934 9235 1922 14501 2385 7452 1099 17038 1382 10588 Benguet 148 4287 1955 3536 2530 771 2796 2463 2592 1064 Ifugao 3300 8063 1074 19607 3315 13134 5134 14226 6842 13828 Kalinga 10553 35257 4544 31687 8520 28252 3106 36238 4973 40140 ... 69 70 71 72 73 74 75 76 77 Abra ... 12763 2470 59094 6209 13316 2505 60303 6311 13345 Apayao ... 37625 19532 35126 6335 38613 20878 40065 6756 38902 Benguet ... 2354 4045 5987 3530 2585 3519 7062 3561 2583 Ifugao ... 9838 17125 18940 15560 7746 19737 19422 15910 11096 Kalinga ... 65782 15279 52437 24385 66148 16513 61808 23349 68663 78 Abra 2623 Apayao 18264 Benguet 3745 Ifugao 16787 Kalinga 16900 1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

其他变换,例如排序就是用sort属性。现在我们提取特定的某列数据。

Python中,可以使用iloc或者ix属性。但是我更喜欢用ix,因为它更稳定一些。假设我们需数据第一列的前5行,我们有:

print df.ix[:, 0].head()# OUTPUT0 12431 41582 17873 171524 1266Name: Abra, dtype: int641

2

3

4

5

6

7

8

9

顺便提一下,Python的索引是从0开始而非1。为了取出从11到20行的前3列数据,我们有:

print df.ix[10:20, 0:3]# OUTPUT Abra Apayao Benguet10 981 1311 256011 27366 15093 303912 1100 1701 238213 7212 11001 108814 1048 1427 284715 25679 15661 294216 1055 2191 211917 5437 6461 73418 1029 1183 230219 23710 12222 259820 1091 2343 26541

2

3

4

5

6

7

8

9

10

11

12

13

14

15

上述命令相当于df.ix[10:20, ["Abra’, "Apayao’, "Benguet’]]。

为了舍弃数据中的列,这里是列1(Apayao)和列2(Benguet),我们使用drop属性,如下:

print df.drop(df.columns[[1, 2]], axis = 1).head()# OUTPUT Abra Ifugao Kalinga0 1243 3300 105531 4158 8063 352572 1787 1074 45443 17152 19607 316874 1266 3315 85201

2

3

4

5

6

7

8

9

axis 参数告诉函数到底舍弃列还是行。如果axis等于0,那么就舍弃行。

统计描述

下一步就是通过describe属性,对数据的统计特性进行描述:

print df.describe()# OUTPUT Abra Apayao Benguet Ifugao Kalingacount 79.000000 79.000000 79.000000 79.000000 79.000000mean 12874.379747 16860.645570 3237.392405 12414.620253 30446.417722std 16746.466945 15448.153794 1588.536429 5034.282019 22245.707692min 927.000000 401.000000 148.000000 1074.000000 2346.00000025% 1524.000000 3435.500000 2328.000000 8205.000000 8601.50000050% 5790.000000 10588.000000 3202.000000 13044.000000 24494.00000075% 13330.500000 33289.000000 3918.500000 16099.500000 52510.500000max 60303.000000 54625.000000 8813.000000 21031.000000 68663.0000001

2

3

4

5

6

7

8

9

10

11

12

Python有一个很好的统计推断包。那就是scipy里面的stats。ttest_1samp实现了单样本t检验。因此,如果我们想检验数据Abra列的稻谷产量均值,通过零假设,这里我们假定总体稻谷产量均值为15000,我们有:

from scipy import stats as ss# Perform one sample t-test using 1500 as the true meanprint ss.ttest_1samp(a = df.ix[:, "Abra"], popmean = 15000)# OUTPUT(-1.1281738488299586, 0.26270472069109496)1

2

3

4

5

6

7

返回下述值组成的元祖:

t : 浮点或数组类型

t统计量

prob : 浮点或数组类型

two-tailed p-value 双侧概率值

通过上面的输出,看到p值是0.267远大于α等于0.05,因此没有充分的证据说平均稻谷产量不是150000。将这个检验应用到所有的变量,同样假设均值为15000,我们有:

print ss.ttest_1samp(a = df, popmean = 15000)# OUTPUT(array([ -1.12817385, 1.07053437, -65.81425599, -4.564575 , 6.17156198]),array([ 2.62704721e-01, 2.87680340e-01, 4.15643528e-70, 1.83764399e-05, 2.82461897e-08]))1

2

3

4

5

6

7

第一个数组是t统计量,第二个数组则是相应的p值。

可视化

Python中有许多可视化模块,最流行的当属matpalotlib库。稍加提及,我们也可选择bokeh和seaborn模块。之前的博文中,我已经说明了matplotlib库中的盒须图模块功能。

# Import the module for plottingimport matplotlib.pyplot as pltplt.show(df.plot(kind = "box"))1

2

3

现在,我们可以用pandas模块中集成R的ggplot主题来美化图表。要使用ggplot,我们只需要在上述代码中多加一行,

import matplotlib.pyplot as pltpd.options.display.mpl_style = "default" # Sets the plotting display theme to ggplot2df.plot(kind = "box")# Import the seaborn libraryimport seaborn as sns# Do the boxplotplt.show(sns.boxplot(df, widths = 0.5, color = "pastel"))import numpy as npimport scipy.stats as ssdef case(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100): m = np.zeros((rep, 4)) for i in range(rep): norm = np.random.normal(loc = mu, scale = sigma, size = n) xbar = np.mean(norm) low = xbar - ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n)) up = xbar + ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n)) if (mu > low) & (mu < up): rem = 1 else: rem = 0 m[i, :] = [xbar, low, up, rem] inside = np.sum(m[:, 3]) per = inside / rep desc = "There are " + str(inside) + " confidence intervals that contain " "the true mean (" + str(mu) + "), that is " + str(per) + " percent of the total CIs" return {"Matrix": m, "Decision": desc}import numpy as npimport scipy.stats as ssdef case2(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100): scaled_crit = ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n)) norm = np.random.normal(loc = mu, scale = sigma, size = (rep, n)) xbar = norm.mean(1) low = xbar - scaled_crit up = xbar + scaled_crit rem = (mu > low) & (mu < up) m = np.c_[xbar, low, up, rem] inside = np.sum(m[:, 3]) per = inside / rep desc = "There are " + str(inside) + " confidence intervals that contain " "the true mean (" + str(mu) + "), that is " + str(per) + " percent of the total CIs" return {"Matrix": m, "Decision": desc}1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

读取数据

Pandas使用函数read_csv()来读取csv文件

import pandasfood_info = ("food_info.csv")print(type(food_info))# 输出: 可见读取后变成一个DataFrame变量1

2

3

4

5

使用函数head( m )来读取前m条数据,如果没有参数m,默认读取前五条数据

first_rows = food_info.head()first_rows = food_info.head(3)1

2

3

print(food_info.columns)# 输出:输出全部的列名,而不是用省略号代替Index(["NDB_No", "Shrt_Desc", "Water_(g)", "Energ_Kcal", "Protein_(g)", "Lipid_Tot_(g)", "Ash_(g)", "Carbohydrt_(g)", "Fiber_TD_(g)", "Sugar_Tot_(g)", "Calcium_(mg)", "Iron_(mg)", "Magnesium_(mg)", "Phosphorus_(mg)", "Potassium_(mg)", "Sodium_(mg)", "Zinc_(mg)", "Copper_(mg)", "Manganese_(mg)", "Selenium_(mcg)", "Vit_C_(mg)", "Thiamin_(mg)", "Riboflavin_(mg)", "Niacin_(mg)", "Vit_B6_(mg)", "Vit_B12_(mcg)", "Vit_A_IU", "Vit_A_RAE", "Vit_E_(mg)", "Vit_D_mcg", "Vit_D_IU", "Vit_K_(mcg)", "FA_Sat_(g)", "FA_Mono_(g)", "FA_Poly_(g)", "Cholestrl_(mg)"], dtype="object")1

2

3

可以使用tolist()函数转化为list

food_info.columns.tolist()

与Numpy一样,用shape属性来显示数据的格式

dimensions = food_info.shapeprint(dimensions)print(dimensions)1

2

输出:(8618,36) ,

其中dimensions[0]为8618,dimensions[1]为36

与Numpy一样,用dtype属性来显示数据类型,Pandas主要有以下几种dtype:

object – 代表了字符串类型

int – 代表了整型

float – 代表了浮点数类型

datetime – 代表了时间类型

bool – 代表了布尔类型

索引

读取了文件后,Pandas会把文件的一行作为列的索引标签,使用行数字作为行的索引标签

注意,行标签是从数字0开始的

Pandas使用Series数据结构来表示一行或一列的数据,类似于Numpy使用向量来表示数据。Numpy只能使用数字来索引,而Series可以使用非数字来索引数据,当你选择返回一行数据的时候,Series并不仅仅返回该行的数据,同时还有每一列的标签的名字。

参考博文:

https://blog.csdn.net/chengxuyuanyonghu/article/details/54956207

https://blog.csdn.net/Mrzhangjwei/article/details/53509040

python的panda基础学习阅读数 9611. 把某一列变为indexdata = pd.read_cav("data.cav",index_col = 0) #把第一列变为index。data = pd.read_cav("data.cav...来自: u014204761的博客

python3 pandas读写excel阅读数 5.5万0. 前言Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型...来自: _compiling的博客

【Python】Python的数据分析(二)——pandas安装及使用阅读数 9.1万一. 安装pandas 1. Anaconda 安装pandas、Python和SciPy最简单的方式是用Anaconda。Anaconda是关于Python数据分析和科学计算的分...来自: 大数据分析BDA

Python 十分钟学会pandas基本数据操作阅读数 832importIn[1]: import numpy as np In[2]: import pandas as pd In[3]: import matplotlib.pyplot as plt...来自: 一颗偏执的心

python学习(九)----pandas模块相关函数阅读数 657pandas的基本数据结构来自: 冬之晓

【解决方法】Panda read_csv()把第一行的数据变成了列名,怎么处理阅读数 5429前言 有些时候,我们会遇到很多这样的数据,比如,这个csv的第一行并不是我们想象中的那样是一个列名。那样,我们处理数据的时候,就会出现问题,第一个不一致了嘛。 解决方案 调用csv库,自己重新编...来自: 肥宅Sean

panda库中 reindex重新定义索引函数相关用法阅读数 527#!/usr/bin/env python # -*- coding:utf-8 -*- import pandas as pd import numpy as np def main(): ...来自: zhangmary的博客

利用Python Pandas进行数据预处理-数据清洗阅读数 5.2万数据缺失、检测和过滤异常值、移除重复数据 数据缺失 数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。from...来自: YEN_CSDN的博客

pandas用法大全阅读数 12.5万一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用: import numpy as np import pandas as pd ...来自: liufang0001的博客

Python安装pandas模块阅读数 2.5万在学习python过程中需要用到一个叫pandas的模块,在pycharm中安装时总是出错。 千般百度折腾还是无果,后来发现它需要安装很多依赖包。就问你气不气~ 需要手动安装啊,千万记住,这里有个...来自: fxjzzyo的博客

关注

冬之晓东165篇文章

排名:千里之外

关注

panda-star198篇文章

排名:千里之外

关注

平步青云p22篇文章

排名:千里之外

关注

catTom92篇文章

排名:千里之外

Python中的排序阅读数 91我们需要对列表,字典进行排序,Python提供了两个方法1.用List的成员函数sort进行排序,修改当前对象 2.用函数sorted进行排序返回副本,原始输入不变 3.sort()是列表中的方法...来自: Panda996的博客

python pandas10分钟入门阅读数 8295This is a short introduction to pandas, geared mainly for new users. Customarily, we import as fo...来自: overstack的专栏

学习Python大数据处理模块Pandas阅读数 1.3万适合初学入门 第一课 构造数据 本节基本了解Pandas里的一些数据结构和模块的基本使用,初步了解Pandas的提供的一些功能,学会基本使用。 创建数据 通过Python的zi...

这款德国锅值爆了!不粘锅,1年能省10桶油建颂企业 · 鹓鶵

python简单web开发阅读数 231一、简介 flask是python中轻量级的web框架,这里基于flask进行python web开发的简单介绍。 备注:更简单的方式是,在服务器上输入:python -m SimpleHTTPS...来自: panda-star的博客

Python抓取熊猫TV分类下的主播人气排名阅读数 164抓取LOL分类下的主播人气排名情况: &quot;&quot;&quot; 抓取熊猫TV当前分类主播人气排名 &quot;&quot;&quo...来自: 一场丶

如何用Python进行大数据挖掘和分析阅读数 5733互联网创业离不开数据,如果能自己做个数据爬虫,那岂不是一件很美好的事情吗? 其实自己做数据挖掘不是梦,学点Python的基本功能,5步就能让你成为一个爬虫高手!...来自: linglong911224的博客

再说python的强大 之大数据、AI、VR、图像处理阅读数 8413vr近年很火,培训学校都是基于c#的,大概老师们都是游戏开发转来的。但是要学c这个语言大家一定要谨慎了,就业方向太窄,程序员都是招java、php、python的,或者其他像perl的,很少看到公司招...来自: FlyTester的博客

Python如何处理大数据(知识整理)阅读数 1.8万博文1:pandas.read_csv——分块读取大文件 http://blog.csdn.net/zm714981790/article/details/51375475 今天在读取...来自: 山谷来客

这款德国锅值爆了!不粘锅,1年能省10桶油建颂企业 · 鹓鶵

Python大数据处理方案阅读数 5408Mysql SQLyog导入导出csv文件SQLyog 导出表中数据存为csv文件1. 选择数据库表 --&gt; 右击属性 --&gt; 备份/导出 --&gt; 导出...来自: 王玉Student的博客

python 大数加法阅读数 3093 来自: Mr_Qin_AC的博客

Python 踩坑记录阅读数 219工作中遇到类似下面逻辑判断i = 1 while i!= 1.5: i = i+0.1 print i在想象中i应该停止在1.5就不输出了,但是实际的输出结果是无限循环。 这是因为在计...来自: panda_zjd的博客

Python的大数据处理模块Pandas阅读数 476【这篇转载自海盗Ora的博客:https://www.cnblogs.com/huanjing/p/6701396.html】Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相...来自: weixin_40830097的博客

Pandas之Categoricals数据类型阅读数 1449Pandas中的Categoricals模块能够有效地编码并显著性地提高了文本分类的效率。 1、There is More to Speed Than Parallelism(速度比并行更重要) ...来自: 一个跳popping的quant的博客

Python Dataframe遍历,删除,初始化操作阅读数 292创建一个DataFrame,它有几种创建方式: 列表,序列(pandas.Series), numpy.ndarray的字典 二维numpy.ndarray 别的DataFrame 结构化的记录(st...来自: 大龙的博客

Python Pandas模块介绍阅读数 934Pandas模块是Python用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。Pandas模块的数据结构主要有两:1、Series ;2、DataFrame ,下面将分别从这两方面介绍...来自: helloxiaozhe的博客

python中pandas库中DataFrame操作阅读数 4714一、查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据,若hea...来自: weixin_40396948的博客

python中操作csv文件阅读数 137一、简介 在写python脚本时,常常我们需要对excel文件进行处理,都知道,excel文件可以转为 csv文件,cvs文件相对简单轻量。这里将介绍使用python对csv文件进行操作的方法。 二、...来自: panda-star的博客

python pandas常用函数学习阅读数 26从网上看的一些资料学习一下,有的内容是直接从其他文章中粘贴过来的。 pandas 有两个主要的数据结构:Series 和 DataFrame: 1. Series 是一个一维数组对象 ,类似于 N...来自: ping550的专栏

python机器学习库入门之pandas阅读数 1455pandas来自: catTom的博客

python自学之路:如何使用第三方模块阅读数 74安装第三方模块需要用到pip这个命令 Windows系统下安装Python的时候勾选了pip和 add python.exe to path 就已经安装了pip。 要安装三方模块,需要知道模块的名字 ...来自: wcq829928的博客

python之pandas的基本使用(1)阅读数 3.7万一、pandas概述pandas :pannel data analysis(面板数据分析)。pandas是基于numpy构建的,为时间序列分析提供了很好的支持。pandas中有两个主要的数据结构,一...来自: cxmscb的博客

Python pandas快速入门阅读数 1.7万来自官网十分钟教学 Pandas的主要数据结构: Dimensions Name Description 1 Series 1D labeled homogeneously-t...来自: 心之所向

Python学习笔记之(四)——强大的数组计算 Panda阅读数 1085Python学习笔记之(四)——强大的数组计算 Panda (首发日期:2018年01月12日14:35:47更新日期: ) 【参考链接】: Pandas 入门 1. pandas入门 1...来自: lucky7213的专栏

Xshell6 中文不限时版下载(免密匙)(笔记)阅读数 11万Xshell6免费版 下载 Xshell6下载链接:原有的资源链接csdn积分自调整太高了,没办法降。这边给你们重新上传一个, 积分已经设置最低了:https://download.c...来自: qq_31362105的博客

panda DataFrame 数据合并,连接(merge,join,concat)阅读数 1358merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法&lt;Strong&gt;merage&lt;/Strong&gt;,可以...来自: 夏目的博客

Python抓取熊猫TV弹幕阅读数 3583描述用Python抓取熊猫TV弹幕信息。 因为弹幕信息是通过TCP发送的数据,所以用的Python的socket编程。 获取弹幕之前要先发送一定数据格式到服务器,获取验证信息,通过后才会返回弹幕数...来自: Sun1956

利用pandas进行数据分组及可视化阅读数 1.4万利用pandas进行数据分组及可视化 kaggle的Titanic数据集,给定了Titanic号邮轮的乘客的船舱等级(Pclass)、性别(Sex)、年龄(Age)、是否获救(Survived)等信息...来自: 终焉_sync的博客

我最喜欢的9个 Python深度学习库阅读数 2247如果你对深度学习和卷积神经网络感兴趣,但是并不知道从哪里开始,也不知道使用哪种库,那么这里就为你提供了许多帮助。   在这篇文章里,我详细解读了9个我最喜欢的Python深度学习库。   这个名单...来自: 薛定谔的熊猫

Panda与Numpy中的数据选取阅读数 810Pandas中的数据选取主要分为如下方式: 1. [0]数字索引直接选取 2. ["a"]通过名字索引选取 3. [1:] [:3] [::-1] ["a":"c"] 通过切片选取 ...来自: Lefenger

Python之Pandas使用教程阅读数 2.1万1.Pandas概述 Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。 Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。 Pandas提供大量能使...来自: 谓之小一

python大数相乘阅读数 910python大数相乘,时间复杂度O(n^2) 1、把数据扔到list里然后逆转,list顺序0~n对应个位、十位... 2、创建存储结果list,长度默认为两个被乘数长度之和 3、按位相乘,相同竖线位...来自: acttell的博客

python 大数 && Java 大数阅读数 1133发现用python写大数,一行解决问题,6爆了 51Nod 1005 #!/usr/bin/env python3 a = int(input());b = int(input());prin...来自: Everything can be done!

使用python pandas读取csv文件数据阅读数 3.2万csv是我接触的比较早的一种文件,比较好的是这种文件既能够以电子表格的形式查看又能够以文本的形式查看。最早接触是在别人的Perl脚本中,或许是为了充分利用Perl的文本处理能力。不过,日常的生活工作中...来自: 小灰笔记

numpy与pandans的数据结构转化阅读数 589点击打开链接 各种数据转化,写的很详细numpy:1)数组转化为列表:numpy.ndarray.tolist(ndarry)2)矩阵转化为列表:numpy.matrix.tolist(matrix...来自: Cute_zhugoing的博客

用python读写和处理csv文件阅读数 1377用python读写和处理csv文件 读取 这里我们使用pandas包来读取csv文件,pandans处理csv文件十分方便我认为是目前最方便的读取方式 首先安装pandans pip in...来自: lqy的博客

Panda3D引擎简介跟初步体验阅读数 6399最近在为公司项目寻找一个合适的开源3D引擎,一开始想到的就是OGRE,irrlicht这些。由于公司里没用人接触过3D引擎,甚至连熟悉C/C++的人也只有一个。此外,基于团队现状,像OGRE之类的纯粹...来自: hzhaolong的专栏

panda 表合并阅读数 73文章目录示例1:依据一组key合并示例2:依据两组key合并示例3:Indicator示例4:依据index合并示例5:解决overlapping的问题参考链接 import pandas as pd...来自: DataScience成长之路

python panda阅读数 69C:\Users\Administrator&gt;pip3 install fuzzywuzzy Collecting fuzzywuzzy Downloading https://fi...来自: Laughing的博客

Python大数据处理模块Pandas阅读数 7353Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数...来自: chengxuyuanyonghu的专栏

Python学习 Python工程师学习路线 对抗生成网络理解 开发者快速理解 不可变深度理解

c++学习模块 c++ 模块 编写python c++调用python嵌套模块 c++调用多个python模块 c#内存的理解 python各种模块学习 python的sys模块学习

Python中的结构化数据分析利器-Pandas简介阅读数 6928Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发t...来自: promise_LOVE的专栏

【小程序】微信小程序开发实践阅读数 37651帐号相关流程注册范围 企业 政府 媒体 其他组织换句话讲就是不让个人开发者注册。 :)填写企业信息不能使用和之前的公众号账户相同的邮箱,也就是说小程序是和微信公众号一个层级的。填写公司机构信息,对公账...来自: 小雨同学的技术博客

[图像]获取图片中感兴趣区域的信息(Matlab实现)阅读数 14441如果一幅图中只有一小部分图像你感兴趣(你想研究的部分),那么截图工具就可以了,但是如果你想知道这个区域在原图像中的坐标位置呢? 这可是截图工具所办不到的,前段时间我就需要这个功能,于是将其用Matla...来自: 祥的专栏

解决打过震荡波补丁之后oracle无法正常启动的问题阅读数 1172最近看了很多声称可以解决打过震荡波补丁之后Oracle不能正常启动的问题的贴子,一一尝试,最后都是以失败告终,于是我自己动手,把一些oracle命令组合起来做了一个批处理,放在启动组里面,解决了这个问...来自: leejidongdong的专栏

异常点/离群点检测算法——LOF阅读数 54345局部异常因子算法-Local Outlier Factor(LOF)  在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反...来自: wangyibo0201的博客

Linux国内常用源的介绍和使用(Ubuntu16.04为例)阅读数 41486Ubuntu16.04的”软件和更新”中,自带了“自动选择最快速的源”的功能,所以现在说配置源,仅仅是了解。当然,如果说是为了手动配置ipv6的源,节约学校的流量,还是非常有必要的。清华TUNA镜像源...来自: 夜色

opencv-3.0.0在Ubuntu14.04下的配置与安装阅读数 33290original url: http://blog.csdn.net/surgewong/article/details/39078251 每次学习新东西或者换新的电脑,最...来自: junmuzi的专栏

thymeleaf模板实现html5标签的非严格检查阅读数 3623一、概述最近在springboot项目引入thymeleaf模板时,使用非严格标签时,运行会报错。默认thymeleaf模板对html5标签是严格检查的。二、在项目中加NekoHTML库在Maven中...来自: Luck_ZZ的博客

搭建图片服务器《二》-linux安装nginx阅读数 8146nginx是个好东西,Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambl...来自: maoyuanming0806的博客

Hive小文件合并阅读数 20408Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些...来自: yycdaizi的专栏

Android 增强版百分比布局库 为了适配而扩展阅读数 134908转载请标明出处: http://blog.csdn.net/lmj623565791/article/details/46767825; 本文出自:【张鸿洋的博客】 一 概述 上周一...来自: Hongyang

文件的上传-servlet实现文件上传---核心API—DiskFileItemFactory阅读数 12576一。文件上传概述 l 实现web开发中的文件上传功能,需完成如下二步操作: • 在web页面中添加上传输入项 • 在servlet中读取上传文件的数据,并保存到本地硬盘中。 l 如何在...来自: vincent

即时通讯-Android推送方案(MQTT)阅读数 50291.什么是MQTT协议MQTT(Message Queuing Telemetry Transport,消息队列遥测传输)是IBM开发的一个即时通讯协议。有可能成为物联网的重要组成部分。该协议支持所有...来自: liujun2son

Spark2学习1之基本环境搭建(win)问题阅读数 4939更多代码请见:https://github.com/xubo245/SparkLearning 版本:Spark-2.0.01解释 从【2】中下载release版,idea打开mvn packag...来自: Keep Learning

linux上安装Docker(非常简单的安装方法)阅读数 98583最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗! Docker的三大核心概念:镜像、容器、仓库 镜像:类似虚拟机的镜像、用俗话说就是安装文件。 容器:类似一个轻量...来自: 我走小路的博客

Java设计模式14——中介者(Mediator)模式阅读数 1708一、定义用一个中介对象封装一系列对象的交互,中介者是多个对象不需要显示的相互作用,而且可以独立的改变他们的交互。二、举例通过上述定义可能不好理解,下面举一个例子,假如在一个没有总经理的公司中,有三个部...来自: 小小本科生成长之路

破解电信、网通、铁通接入商限制共享上网一阅读数 4737交了钱,但是接入商还限制你共享上网。如果家里有两台以上电脑,只有一台能上网,十分恼火。 经过分析,发现共享上网从以下几个方面限制: MAC地址绑定PPPOE输入的IP数据包的TTL置0 突破...来自: 康林工作室

EasyUI - 一个简单的后台管理系统入门实例阅读数 10071采用EasyUI 1.4.x 版本,默认default风格,异步加载页面,多Tab页展示,使用JSON文件模拟从后台动态获取数据。...来自: 般若

DirectX修复工具增强版阅读数 1754768最后更新:2018-12-20 DirectX修复工具最新版:DirectX Repair V3.8 增强版 NEW! 版本号:V3.8.0.11638 大小: 107MB/7z格式压缩,18...来自: VBcom的专栏

Android基于cordova3.3的插件开发阅读数 25130最近工作的项目,需要用到cordova进行插件开发,具体Cordova的作用,就不再赘述,大家可以自行的去百度就OK了,直接开始。具体的流程,我将已一个小的Demo进行推进讲解。也是刚刚接触,太理论的...来自: 薛琪Code

【深入Java虚拟机】之五:多态性实现机制——静态分派与动态分派阅读数 13665Class文件的编译过程中不包含传统编译中的连接步骤,一切方法调用在Class文件里面存储的都只是符号引用,而不是方法在实际运行时内存布局中的入口地址。这个特性给Java带来了更强大的动态扩展能力,使...来自: 兰亭风雨的专栏

关于SpringBoot bean无法注入的问题(与文件包位置有关)阅读数 45750问题场景描述整个项目通过Maven构建,大致结构如下: 核心Spring框架一个module spring-boot-base service和dao一个module server-core 提供系统...来自: 开发随笔

编写C语言版本的卷积神经网络CNN之一:前言与Minst数据集阅读数 13299卷积神经网络是深度学习的基础,但是学习CNN却不是那么简单,虽然网络上关于CNN的相关代码很多,比较经典的是tiny_cnn(C++)、DeepLearnToolbox(Matlab)等等,但通过C语...来自: tostq的专栏

加密算法介绍及加密算法的选择阅读数 10098加密算法介绍 一. 密码学简介 据记载,公元前400年,古希腊人发明了置换密码。1881年世界上的第一个电话保密专利出现。在第二次世界大战期间,德国军方启用“恩尼格玛”密码机,密码学在战争中起...来自: leolewin的博客

编写一个程序,模拟扔硬币的结果.阅读数 5010package 第三天_练习题; //编写一个程序,模拟扔硬币的结果. public class Test2 { public static void main(String[] args) { ...

java web开发(一) 环境搭建阅读数 13264一直都在做App开发,但是对java web方面的了解比较少,最近有时间,所以自己就寻思动手从零开始搭建一个java web项目。该项目主要是给app,提供接口服务,简称项目为"mserver’。好了...来自: zhangxiaowei

idea 快捷键ctrl+shift+f失效的解决方案阅读数 107671. 刚换了新环境,新装的idea的快捷键ctrl+shift+f按了没反应,于是想到快捷键冲突了,马上查看qq和搜狗输入法的快捷键: 这里是将搜狗输入法的简繁切换快捷键换下,我是换成了ct...来自: 外星喵的博客

蜂窝小区最短距离的坐标系解法阅读数 15747如下图所示,蜂窝小区,以1为中心,顺时针编号,编号最大限定为100000。求任意两编号之间的最短距离。两个相邻小区的距离为1 示例:19到30的最短距离为5 实现如下三个接口: /**********...来自: NYS001的专栏

expat介绍文档翻译阅读数 8012原文地址:http://www.xml.com/pub/a/1999/09/expat/index.html 因为需要用,所以才翻译了这个文档。但总归赖于英语水平很有限,翻译出来的中文有可能...来自: ymj7150697的专栏

图文说明Visual Studio 2013编译libpqxx步骤以及常见编译错误阅读数 2141编译步骤 1.下载并安装postgresql,点击进入下载地址。本文下载版本为:postgresql-9.5.1-1-windows.exe 2.下载libpqxx,点击进入下载地址。本文下载...来自: Fish的博客

史上最好的LDA(线性判别分析)教程阅读数 15720一、前言最近由于研究需要,要用到线性判别分析(LDA)。于是找了很多资料来看,结果发现大部分讲的都是理论知识,因此最后还是看的一知半解,后来终于找到了个英文的文档,作者由PCA引入LDA,看过后豁然开...来自: jnulzl的专栏

centos 查看命令源码阅读数 7343# yum install yum-utils 设置源: [base-src] name=CentOS-5.4 - Base src - baseurl=http://vault.ce...来自: linux/unix

常见加密算法的分类与比较阅读数 9117常见的加密算法可以分成三类,对称加密算法,非对称加密算法和Hash算法。 对称加密 指加密和解密使用相同密钥的加密算法。对称加密算法的优点在于加解密的高速度和使用长密钥时的难破解性...来自: dragon_ton的专栏

Matlab读取Excel数据阅读数 830Matlab读取Excel数据exp10.xlsx中的内容 I/mA V(内接)/V V(外接)/V V(补偿)/V 20 0.12 0.10 0.10 40 0...来自: Cantjie

转载-zookeeper在kafka中的作用阅读数 26241)Broker注册   Broker在zookeeper中保存为一个临时节点,节点的路径是/brokers/ids/[brokerid],每个节点会保存对应broker的IP以及端口等信息.   ...来自: dly1580854879的博客

强连通分量及缩点tarjan算法解析阅读数 58498强连通分量: 简言之 就是找环(每条边只走一次,两两可达) 孤立的一个点也是一个连通分量 使用tarjan算法 在嵌套的多个环中优先得到最大环( 最小环就是每个孤立点) 定义: int Ti...

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值