pandas-函数（聚合与多表关联）

最新推荐文章于 2023-11-21 16:26:52 发布

Yuanling_2

最新推荐文章于 2023-11-21 16:26:52 发布

阅读量1.7k

点赞数

文章标签： python-函数

本文链接：https://blog.csdn.net/sinat_20263049/article/details/100534127

版权

import pandas as pd

df=pd.read_csv('dataAnalyst_sql.csv')

pandas 函数

(1) groupby 分组聚合函数

df.groupby(by='city')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000000007B3BCF8>

Signature: df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
Docstring:Group series using mapper (dict or key function, apply given function

df.groupby(by='city').count()   
df.groupby(by='city').max()

df.groupby(by=['city','workYear']).mean()   #多重索引，在不同城市的不同工作年限下的情况

for k v in df.groupby(by=['city']):  #k表示聚合元素  v表示数据框(聚合操作)
    print(max(v,city)-min(v,city))
    print('**' *10)

(2) 关联函数（多表关联）

data=pd.read_csv('dataAnalyst_sql.csv')

company=pd.read_csv('company_sql.csv')

data.head()

	positionId	city	companyId	firstType	secondType	education	industryField	positionAdvantage	positionName	positionLables	salary	workYear
0	2537336	上海	8581	技术	数据开发	硕士	移动互联网	知名平台	数据分析师	['分析师', '数据分析', '数据挖掘', '数据']	7k-9k	应届毕业生
1	2427485	上海	23177	技术	数据开发	本科	金融	挑战机会,团队好,与大牛合作,工作环境好	数据分析师-CR2017-SH2909	['分析师', '数据分析', '数据挖掘', '数据']	10k-15k	应届毕业生
2	2511252	上海	57561	设计	数据分析	本科	移动互联网	时间自由,领导nic	数据分析师	['分析师', '数据分析', '数据']	4k-6k	应届毕业生
3	2427530	上海	7502	市场与销售	数据分析	本科	企业服务,数据服务	五险一金绩效奖金带薪年假节日福利	大数据业务分析师【数云校招】	['商业', '分析师', '大数据', '数据']	6k-8k	应届毕业生
4	2245819	上海	130876	技术	软件开发	本科	其他	在大牛下指导	BI开发/数据分析师	['分析师', '数据分析', '数据', 'BI']	2k-3k	应届毕业生

company.head()

	companyId	companyFullName	companyLabelList	companyShortName	companySize	businessZones	Unnamed: 6	Unnamed: 7	Unnamed: 8
0	8581	纽海信息技术(上海)有限公司	['技能培训', '节日礼物', '带薪年假', '岗位晋升']	1号店	2000人以上	['张江']	NaN	NaN	NaN
1	23177	上海点荣金融信息服务有限责任公司	['节日礼物', '带薪年假', '岗位晋升', '扁平管理']	点融网	500-2000人	['五里桥', '打浦桥', '制造局路']	NaN	NaN	NaN
2	57561	上海晶樵网络信息技术有限公司	['技能培训', '绩效奖金', '岗位晋升', '管理规范']	SPD	50-150人	['打浦桥']	NaN	NaN	companySho+I4rtName
3	7502	杭州数云信息技术有限公司上海分公司	['绩效奖金', '股票期权', '五险一金', '通讯津贴']	数云	150-500人	['龙华', '上海体育场', '万体馆']	NaN	NaN	NaN
4	130876	上海银基富力信息技术有限公司	['年底双薪', '通讯津贴', '定期体检', '绩效奖金']	银基富力	15-50人	['上海影城', '新华路', '虹桥']	NaN	NaN	NaN

(1) concat # 堆叠

应用场景：比如有10个月的销售明细，我们在处理的时候将10个月的明细合并在一起（每张表具有相同的格式）常用上下堆叠，左右堆叠常用merge

pd.concat([company,data])   #将两张表的字段全部合并，没有以空代替（上下拼接）
pd.concat([company,data], axis=1)   #将两张表的字段全部合并，没有以空代替（左右拼接）

Signature: pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)
Docstring:
Concatenate pandas objects along a particular axis with optional set logic

df1=pd.DataFrame(
    {
        'A':list('abcd'),
        'B':list('efgh')
    }
)
df1

	A	B
0	a	e
1	b	f
2	c	g
3	d	h

df2=pd.DataFrame(
    {
        'C':list('abcd'),
        'D':list('efgh')
    }
)
df2

	C	D
0	a	e
1	b	f
2	c	g
3	d	h

pd.concat([df1,df2])

E:\Anaconda3\lib\site-packages\ipykernel_launcher.py:1: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.

To retain the current behavior and silence the warning, pass 'sort=True'.

  """Entry point for launching an IPython kernel.

	A	B	C	D
0	a	e	NaN	NaN
1	b	f	NaN	NaN
2	c	g	NaN	NaN
3	d	h	NaN	NaN
0	NaN	NaN	a	e
1	NaN	NaN	b	f
2	NaN	NaN	c	g
3	NaN	NaN	d	h

pd.concat([df1,df2],axis=1)  #左右堆叠

	A	B	C	D
0	a	e	a	e
1	b	f	b	f
2	c	g	c	g
3	d	h	d	h

(2) join

company.join(data)

Signature: company.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
    
Docstring: Join columns with other DataFrame either on index or on a key column.
    Efficiently Join multiple DataFrame objects by index at once by

(3) merge #键值

data.merge(right=company,how='inner', on='companyId')  #right表示与哪张表关联，左关联右，返回在左边  on通过哪几个键值（列）进行关联
### data 的在左边，company在右边

Signature: data.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False,
                      suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
Docstring:

data.rename()  #修改字段名称

Signature: data.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None)

Docstring:Alter axes labels.

col=list(data.columns)     #提取列名
col

['positionId',
 'city',
 'companyId',
 'firstType',
 'secondType',
 'education',
 'industryField',
 'positionAdvantage',
 'positionName',
 'positionLables',
 'salary',
 'workYear']

col=list(data.columns)     #提取列名
col[0]='id'   #修改id名
data.columns=col   #赋值

data.merge(right=company,how='inner', left_on='id', right_on='companyId')    #当两表的key名不一致时

pd.merge()

Signature: pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, 
                    suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Yuanling_2

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas-函数（聚合与多表关联）

import pandas as pddf=pd.read_csv('dataAnalyst_sql.csv')pandas 函数(1) groupby 分组聚合函数df.groupby(by='city')<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000000007B3BCF8>...
复制链接

扫一扫