在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。 本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。
纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。
本篇所涉及知识点:
- 美化DataFrame
- Python一些好玩的函数
- Pandas拼接
- 列中出现列表的处理方式
- accessor
- 窗口函数
美化DataFrame
df = pd.DataFrame([['上海', '苹果', 1], ['北京', '苹果', 2], ['天津', '梨子', 3], [
'重庆', '香蕉', 4]], columns=['直辖市', '水果', '单价'])
df
df.style.set_caption("美化后的DataFrame").format(
{
"直辖市": "{}市", "单价": "¥{:.2f}"}).hide_index().background_gradient(subset='单价')
[i for i in dir(pd.io.formats.style.Styler) if not i.startswith("_") ]查看style的函数和属性。
Python中一些好玩的函数/功能
zip
zip([iterable, ...])
是Python的内置函数,用来打包多个可迭代对象的对应位置元素,返回的是元组迭代器。
str、list、tuple都是可迭代对象
list1 = [1,2,3]
list2=['a','b','c','d']
# 返回的是zip对象
zip(list1,list2)
>>> <zip at 0x226d8c52fc8>
在Python3中zip()返回的是一个迭代器。我们需要手动的使用list()或者dict()去展示。
list(zip(list1,list2))
>>> [(1, 'a'), (2, 'b'), (3, 'c')]
从上图我们可以发现list1长度是3,list2长度是4,而zip()打包返回的列表长度是3。所以我们可以得出结论:
zip()打包返回的列表长度与打包对象中最短的一个对象长度相等。
zip()可以打包,当然也可以解压。解压后的数据以同样元组方式返回。
list(zip(*zip(list1,list2)))
>>> [(1, 2, 3), ('a', 'b', 'c')]
zip(*zip())这样的形式就可以解压了。如果看不懂,建议自己手动试一下。接下来展示几个的小例子。
list1=[1,2,3]
list2=[5,6,7]
[x*y for x,y in zip(list1,list2)]
>>> [5, 12, 21]
list3=['a','b','c','d','e']
list(zip(list3[:-1],list3[1:]))
>>> [('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e')]
product
product(*iterables, repeat=1)
上面介绍的zip()是对应位置打包,这个product()大家再来品一品。
from itertools import product
year=[2019,2020]
month=[1,2]
day=[10,15]
list(product(year,month,day))
>>> [(2019, 1, 10),
(2019, 1, 15),
(2019, 2, 10),
(2019, 2, 15),
(2020, 1, 10),
(2020, 1, 15),
(2020, 2, 10),
(2020, 2, 15)]
product()函数相当于是求笛卡尔积。
reduce
reduce(function, iterable[, initializer])
将可迭代对象中的前两个元素取出进行运算,将获得的值与后一位元素继续计算,以此类推。
from functools import reduce
reduce(lambda x,y:x+y,[1,3,5,7,9])
>>> 25
字典推导式
df = pd.DataFrame(['中国','加拿大','墨西哥','日本','韩国'],columns=['country'])
groups = {
'北美洲':('加拿大','墨西哥'),
'亚洲':('中国','日本','韩国')
}
我想添加一列,返回的是国家对应的洲。顺便复习一下前一篇讲的map。
df['area'] = df.country.map({
x:k for k,v in groups.items() for x in v})
>>> country area
0 中国 亚洲
1 加拿大 北美洲
2 墨西哥 北美洲
3 日本 亚洲
4 韩国 亚洲
一步步解释一下map里面的字典推导式。
第一步,item()返回的是两个元组组成的列表,每个元组里面分别是一个字符串和一个元组
groups.items()
>>> dict_items([('北美洲', ('加拿大', '墨西哥')), ('亚洲', ('中国', '日本', '韩国'))])
第二步,通过k(洲),v(含有国家的元组)接收items的keys和values。