pandas 文本处理备忘

最新推荐文章于 2024-06-17 16:30:44 发布

Arms206

最新推荐文章于 2024-06-17 16:30:44 发布

阅读量176

点赞数

本文链接：https://blog.csdn.net/sdaujz/article/details/106266370

版权

# 统计某个字段下有哪些类别及数量
df['category'].value_counts()

# 将多个相同的 df 合并
https://blog.csdn.net/qq_41853758/article/details/83280104

# 空值处理
# https://blog.csdn.net/lwgkzl/article/details/80948548
# 去除含有空值的行，并直接在原数据(df)上修改
df.dropna( inplace = True )

# 重置索引 reset_index
# https://blog.csdn.net/lujiandong1/article/details/52929090
# https://www.cnblogs.com/keye/p/11229863.html

# 重置一下索引，inplace=True 在原数据（df_pro）上修改；
# 不想保留原来的index，drop=True
df_pro.reset_index( inplace = True, drop = True)

# 设置显示宽度
pd.set_option('display.max_colwidth', 170)


# 设置行数全部显示
pd.set_option('display.max_rows', None)

# 取交集
https://www.cnblogs.com/kaerxifa/p/13155768.html

pd.merge(df1,df2)


# 取差集
https://www.cnblogs.com/jaysonteng/p/12360604.html

# 从 dataframe 里挑选特定的行

# 挑选id值为0、3、4、11的行
df[ df['id'].isin( [0, 3, 4, 11] ) ]

# 另一种写法
df[ df.id.isin( [0, 3, 4, 11] ) ]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Arms206

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 常用库速查表备忘单 cheaksheets numpy pandas sklearn

11-28

这里我们关注的是一些核心的Python库，包括Numpy、Pandas、Scikit-learn（Sklearn）以及相关的数据处理和可视化工具。 1. **Numpy**： Numpy是Python中的一个基础库，主要用于处理大型多维数组和矩阵。它提供了...

Cheatsheets:Codecademy的备忘单

04-04

- 文本处理（grep、sed、awk） - 管道操作（|）和重定向（>、<） - 查看系统信息（whoami、uname、top等） - 脚本编写（bash shell脚本） 3. **Web开发** - HTML基础知识：标签、属性、结构 - CSS样式表：...

参与评论您还未登录，请先登录后发表或查看评论

pandas_csv文件文本处理备忘

sdaujz的博客

01-23

164

要读取的demo.csv文件样例， id是样本id，question是提问，A和B是两个候选答复，answer是正确回复的标签： id,question,A,B,answer 0,今天天气怎么样？,中午去文瀛吃吧,晴空万里，天儿可好了,2 1,墨子天志篇说了什么？,上天是有意志的，人们应当敬畏鬼神，但同时要重视个人的努力,愚民究竟也有聪明的，早已看穿了腐儒的把戏,1 2,新时代如何看待儒家？,儒家不信鬼神却又重祭祀，自相矛盾；孔老二信命，声称五十而知天命，不知命无以为君子也，其真不知秦末“王侯将...

Python pandas 各类操作备忘

璀璨 - 帝禹

03-30

698

>>> import pandas as pd >>> factors={'2021':36.45,'2020':35.43,'2019':34.65,'2018':33.9,'2017':33.14} # 必须加index，index中是列表,列表个数，即为记录数。 # 下面是以关键字为列名，共5列 >>> df = pd.DataFrame(factors,index=[1]) # 结果如下： 2021 2020 2019 2...

首次公开，用了三年的 pandas 速查表

Python学习与数据挖掘

03-23

1687

导读：Pandas 是一个强大的分析结构化数据的工具集，它的使用基础是 Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。本文收集了 Python 数据分析库 Pandas 及相关工具的日常使用方法，备查，持续更新中。作者：李庆辉来源：大数据DT（ID：hzdashuju）缩写说明：df：任意的 Pandas DataFrame 对象s：任意的 Pandas Series 对象注：有些属性方法 df 和 s 都可以使用推荐资源：pandas 在线教程https://www.

pandas速查手册

跑着跑着人就瘦了

10-06

229

在本备忘单中，我们将使用以下速记： df| 任何pandas DataFrame对象 s| 任何pandas系列对象向下滚动时，您会看到我们已经使用副标题组织了相关命令，因此您可以根据要尝试完成的任务快速搜索并找到正确的语法。另外，快速提醒一下-要使用下面列出的命令，您需要先导入相关的库，如下所示： import pandas as pdimport numpy as np 汇入资料使用这些命令可以从各种不同的来源和格式导入数据。 pd.read_csv(filename)| 从CSV文件 pd.r

无涯教程-Pandas 函数列表

无涯教程

06-17

585

Pandas可用作数据科学最重要的Python软件包。它有助于提供许多以更简单的方式处理数据的函数。它的快速，灵活和富有表现力的数据结构旨在进行真实的数据分析。

pandas导出excel颜色设置

热门推荐

Jalen备忘录

07-20

1万+

1. 需求：（1）导出数据age列如果大于27，设置背景色并且字体红色（2）导出数据love列如果包含关键字basketball，设置字体为红色（3）导出数据comments列如果包含关键字American，设置背景色，字体为蓝色 2. 导出效果： 3. 代码： import re import pandas as pd def export_ms_excel(): data = [{'name': 'Jalen', 'age': ..

Pandas初识

数据媛

06-19

604

1.导入所需模块 %matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as plt pd.options.display.max_rows = 8 2.应用示例 2.1泰坦尼克号乘客数据 #导入数据 df = pd.read_csv("titanic.csv") #查看前5列数据 df.head() #按年龄分列的乘客分布情况 df['Age'].hist() ...

PHP 资源备忘

用法之妙，存乎一心。

07-16

2641

分享：一个PHP资源列表，内容包括：库、框架、模板、安全、代码分析、日志、第三方库、配置工具、Web 工具、书籍、电子书、经典博文等等

NLP自然语言处理——文本分类之数据集汇总

kobe26366的博客

06-28

7001

文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集1、数据格式2、测试集：test_set.csv数据集二数据集三参考文献名词解释（1）脱敏处理一、“达观杯”文本智能处理挑战赛数据集 “达观杯”文本智能处理挑战赛数据集包含了两个文件，分别是：train_set.csv和test_set.csv。以下是关于这两个数据集的介绍 1、数据格式 2、测试集：test_set.csv 数...

备忘录-藏书记ITSPR

02-14

【藏书记ITSPR备忘录】主要关注的是利用Python编程语言进行数据管理和信息处理的相关知识点。Python作为一款强大且易学的高级编程语言，广泛应用于数据科学、Web开发、自动化脚本等多个领域。在“Memorias-...

cheatsheets:我编写的各种备忘单上的pdf和屏幕截图的集合

03-09

1. **编程语言备忘单**: 可能涵盖Python、Java、C++、JavaScript等常见语言的语法、常用函数、错误处理等内容。 2. **框架和库**: 如React、Vue.js、Django、Spring Boot等的API用法、配置指南、最佳实践。 3. **...

基于STM32+MPU6050+TB6612FNG的双轮平衡车运动控制系统含程序+原理图.zip

10-07

个人大四的毕业设计、或者课程设计，经导师指导并认且高分通过的设计项目。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。【资源说明】适用人群：该项目属于高分优质项目，上传之前都本地运行验证过。适合小白、高校学生、教师、科研人员、公司员工下载学习借鉴使用。用途：学习借鉴，也可在此基础上二次开发，当然也可以直接用于课设、作业、毕设、实际项目等。技术支持：关于项目的技术细节或更详细的介绍，可以私信与我沟通，或看项目内的项目说明(若有)、代码等，很乐意交流学习。【特别强调】若自己基础实在太差，自己不懂运行，可以与我私聊，可远程教学指导。当然也可以做项目二次开发和定制。

【电力系统】基于Benders分解算法解决混合整数规划问题机组组合问题附Matlab代码.rar

10-07

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

医用物理学实验考核系统 SSM毕业设计源码+数据库+论文（JAVA+SpringBoot+Vue.JS）.zip