dataframe一列转化一个字符串_一分钟一个Pandas小技巧(三)

本文介绍了Pandas DataFrame的美化、Python趣味函数、拼接方法、处理列中列表的方式以及accessor访问器的使用。重点讲解了zip、product、reduce、字典推导式和窗口函数等,帮助提升Pandas使用技巧。
摘要由CSDN通过智能技术生成

28ae97edee298918c3c7e58c9e0f6367.png

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。 本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。

纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。

本篇所涉及知识点:

  1. 美化DataFrame
  2. Python一些好玩的函数
  3. Pandas拼接
  4. 列中出现列表的处理方式
  5. accessor
  6. 窗口函数

美化DataFrame

df = pd.DataFrame([['上海', '苹果', 1], ['北京', '苹果', 2], ['天津', '梨子', 3], [
                  '重庆', '香蕉', 4]], columns=['直辖市', '水果', '单价'])
df

79684cb8d74afdbfca21723019e0bb3f.png
df.style.set_caption("美化后的DataFrame").format(
    {
    "直辖市": "{}市", "单价": "¥{:.2f}"}).hide_index().background_gradient(subset='单价')

f850d0185c29ecf7f3ef845370c95b3a.png
[i for i in dir(pd.io.formats.style.Styler) if not i.startswith("_") ]查看style的函数和属性。

Python中一些好玩的函数/功能

zip

zip([iterable, ...])

是Python的内置函数,用来打包多个可迭代对象的对应位置元素,返回的是元组迭代器。

str、list、tuple都是可迭代对象
list1 = [1,2,3]
list2=['a','b','c','d']
# 返回的是zip对象
zip(list1,list2)

>>> <zip at 0x226d8c52fc8>

在Python3中zip()返回的是一个迭代器。我们需要手动的使用list()或者dict()去展示。

list(zip(list1,list2))

>>> [(1, 'a'), (2, 'b'), (3, 'c')]

从上图我们可以发现list1长度是3,list2长度是4,而zip()打包返回的列表长度是3。所以我们可以得出结论:

zip()打包返回的列表长度与打包对象中最短的一个对象长度相等。

zip()可以打包,当然也可以解压。解压后的数据以同样元组方式返回。

list(zip(*zip(list1,list2)))

>>> [(1, 2, 3), ('a', 'b', 'c')]

zip(*zip())这样的形式就可以解压了。如果看不懂,建议自己手动试一下。接下来展示几个的小例子。

list1=[1,2,3]
list2=[5,6,7]
[x*y for x,y in zip(list1,list2)]

>>> [5, 12, 21]

list3=['a','b','c','d','e']
list(zip(list3[:-1],list3[1:]))

>>> [('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e')]

product

product(*iterables, repeat=1)

上面介绍的zip()是对应位置打包,这个product()大家再来品一品。

from itertools import product
year=[2019,2020]
month=[1,2]
day=[10,15]
list(product(year,month,day))

>>> [(2019, 1, 10),
     (2019, 1, 15),
     (2019, 2, 10),
     (2019, 2, 15),
     (2020, 1, 10),
     (2020, 1, 15),
     (2020, 2, 10),
     (2020, 2, 15)]

product()函数相当于是求笛卡尔积。

reduce

reduce(function, iterable[, initializer])

将可迭代对象中的前两个元素取出进行运算,将获得的值与后一位元素继续计算,以此类推。

from functools import reduce
reduce(lambda x,y:x+y,[1,3,5,7,9])

>>> 25

字典推导式

df = pd.DataFrame(['中国','加拿大','墨西哥','日本','韩国'],columns=['country'])
groups = {
    
    '北美洲':('加拿大','墨西哥'),
    '亚洲':('中国','日本','韩国')
}

我想添加一列,返回的是国家对应的洲。顺便复习一下前一篇讲的map。

df['area'] = df.country.map({
    x:k for k,v in groups.items() for x in v})

>>>  country area
  0   中国   亚洲
  1   加拿大 北美洲
  2   墨西哥 北美洲
  3   日本   亚洲
  4   韩国   亚洲

一步步解释一下map里面的字典推导式。

第一步,item()返回的是两个元组组成的列表,每个元组里面分别是一个字符串和一个元组

groups.items()

>>> dict_items([('北美洲', ('加拿大', '墨西哥')), ('亚洲', ('中国', '日本', '韩国'))])

第二步,通过k(洲),v(含有国家的元组)接收items的keys和values。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值