pandas 处理数据时快捷方法

～小疯子～

已于 2022-11-23 16:56:51 修改

阅读量295

点赞数

分类专栏： Python 文章标签： pandas python 开发语言

于 2022-09-29 10:28:02 首次发布

本文链接：https://blog.csdn.net/weixin_39121325/article/details/127102130

版权

Python 专栏收录该内容

49 篇文章

订阅专栏

1. dt1 中有的数据，在dt2 中也有，取dt1中有，dt2中没有的数据

# 方法一：

user_push = pd.DataFrame(columns=dt1.columns)
for user, group in dt1.groupby(by=['user_id']):
    push_history = dt2[dt2.user_id == user]['item_id'].values
    group = group[~group.item_id.isin(push_history)]
    if not group.empty:
#         group = group.sample(1)
        group.loc[:, 'user_id'] = user
        user_push = pd.concat((user_push, group))
user_push

方法二：
slice_lable = (
    dt1[['user_id','item_id']].apply(tuple, axis=1).isin(dt2[['user_id','item_id']].apply(tuple, axis=1).to_list())
)
slice_lable
user_push = dt1[~slice_lable]
user_push

返回结果：

2. 对dt1 中按照user_id 进行分组，按照cnt 进行排序，取用户的前n个

dt1.sort_values('cnt', ascending=False).groupby('user_id', as_index=False).first()

dt1.sort_values('cnt', ascending=False).groupby('user_id', as_index=False).head(4)

3. dataframe 进行分组，分组后将对应的数据进行按照一定的字符拼接

test_data = faq_dts[['user_id','user_content']]
test_data.head()

test_data[test_data['user_id']=='2022110904231319'].groupby(['user_id']).user_content.apply(lambda x:x.str.cat(sep=' ')).reset_index()

4. 把字符串的字典转化为字典类型

a = "{'name' : 'jim', 'sex' : 'male', 'age': 18}"
b = eval(a)


import json
c = json.loads(a)#c的类型也是字典类型的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

～小疯子～

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pandas 快捷入门

cygnet477的博客

03-27

404

Pandas 快捷入门 1、 Pandas创建序列 dates = pd.date_range('20200301',periods=6) df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) df # 使用字典来创建：key 为 DataFrame 的列；value 为对应列下的值 df1 = pd....

pandas 排序、排名函数的使用

suixuejie的博客

09-04

1万+

排序 Series s.sort_index(ascending=False)#对series的索引进行排序，默认升序 s.sort_values(ascending=False)#对series的值进行排序，对值进行排序的时候，无论是升序还是降序，缺失值（NaN）都会排在最后面 DataFrame： dt.sort_index(ascending=False)#按列索引进行...

参与评论您还未登录，请先登录后发表或查看评论

pandas 入门

kelanj的博客

08-09

685

pandas基础操作，，临时整理，便于后续快速上手

pandas常用操作记录

每天的学习笔记

02-26

317

1、读取csv文件并制定id列，即行索引 data = pd.read_csv('./case_info.csv', index_col='id') data = pd.read_csv('f:/ceshi.csv',header=None,names=range(2,5))header表明原数据是否有列索引，names指定列名是2,3,4 header=0，表示文件第0行（...

Python快速找出列表1有但列表2没有的数据，实现数据同步

Dxy1239310216的博客

01-05

725

我们平时需要使用Python来同步数据，我的思路是读取数据库1的id，再读取数据库2的id，形成两个列表，然后对比两个列表，快速找出列表1有但列表2没有的数据，就作为需要新增同步的数据id。为什么要这样设计了呢，因为可能之前的同步会失败，所以可能列表1和列表2中的id有重叠部分，也有非重叠部分，所以这样做容错率会更高。方法来计算两个集合之间的对称差集。最后，我们将结果转换回列表格式。通过上面列表可以看出，我们需要新增同步的是，2,3这两个id 的数据。在这个例子中，我们首先将两个列表转换为集合（

pandas处理csv文件的方法步骤

12-16

在处理数据之前，通常需要确保所有数据都是字符串格式，以便于后续的拼接操作。可以使用 `applymap()` 函数将所有列转换为字符串： ```python data = data.applymap(str) ``` 如果日期列是整数类型，我们需要将其...

Pandas系列学习教程——19 pandas快捷方便的处理日期数据

lzylzy66的博客

03-17

1191

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章简单介绍了pandas处理日期格式的步骤，详细请看下文。

基于Python的Pandas数据处理期末项目设计源码

热门推荐

MsSpark的博客

10-18

33万+

一、sort_values()函数用途 pandas中的sort_values()函数类似于SQL中order by的原理，可以将数据集依照某个字段中的数据进行排序。二、sort_values()函数的具体参数用法： DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘la...

isin 筛选数据及df.sort_values属性应用

hellocsz的博客

03-09

2175

1.在pandas的DataFrame中，我们经常需要根据某属性来选取指定条件的行，这时isin方法就特别有效。[python] view plain copyimport pandas as pd df = pd.DataFrame([[1,2,3],[1,3,4],[2,4,3]],index = ['one','two','three'],columns = ['A','B','C']) ...

python数据处理拾遗

Wmnyang的博客

12-05

291

1、背景 2019年11月底因需要，使用Python对大众装配线边的数据做了一些处理，由于第一次做处理，有些很不熟悉，故于此记下记录与心得。才学疏浅，望各位指教。 2、常用函数 2.1、local() 在批次读取csv文件时，为批量生成变量名。采用local()函数生成。 names = locals() n = ['过点信息明细2019.9.23-2019.10.18','车型零件总表11-25...

AndroidStudio最常用快捷键总结

luomoBM的博客

10-23

1161

默认在default的kaymap环境下的快捷键。 #最重要的快捷键 1. ctrl+shift+A:万能命令行 2. shift两次:查看资源文件 #新建工程第一步操作 1. module设置把空包分层去掉,compact empty middle package 2. 设置当前的工程是utf-8,设置的Editor-->File Enco

使用pandas进行数据快捷加载

华章IT官方博客

09-18

785

导读：在已经准备好工具箱的情况下，我们来学习怎样使用pandas和NumPy对数据进行加载、操作、预处理与打磨。让我们先从CSV文件和pandas开始。pandas库提供了最方便、功能完...

Pandas各种骚操作

藏知阁

01-08

2万+

A在one中重复了两次，被默认取了平均值，A在two中不存在，值为NaN。以上功能如果使用pivot()函数会报错，因为限制了唯一性。此外，pivot_table()的index参数支持列表，而pivot()则会报错。df_per_unit[‘date’]是Series对象，里面元素是datetime64[ns]类型。pivot_table()函数和pivot()函数类似，但功能更为强大。所以，通常，melt()通常和pivot_table()搭配使用。pivot_table()函数。

熟练掌握pandas的各种操作

hufei_neo的博客

05-20

1116

pandas是python里面一款非常优秀的做数据分析与挖掘的包，也是所有的数据分析和挖掘从业人员最需要掌握的基本包下面介绍pandas的基本操作 import pandas as pd import numpy as np 1. 读取数据 # 具体参数在spyder可以快捷键ctrl+i,在jupyter notebook可以快捷键shift+tab data=pd.read_exce...

Pandas数据处理库基础入门教程

在使用Pandas时，还需注意其内部基于NumPy数组实现，因此在进行大数据处理时，Pandas的性能与NumPy非常接近，这对于需要处理复杂数据和大规模数据集的用户来说是一个巨大的优势。 Pandas库的官方文档非常详尽，为...