python dataframe 求某列是前几列和_Python开发小需求之excel各种操作

最新推荐文章于 2023-02-17 13:19:53 发布

weixin_39849800

最新推荐文章于 2023-02-17 13:19:53 发布

阅读量3.1k

点赞数 1

文章标签： python dataframe 求某列是前几列和

本文链接：https://blog.csdn.net/weixin_39849800/article/details/111639447

版权

本文介绍了使用Python处理Excel数据的需求，包括合并特定列、按规则拆分、处理数据格式、预测及提取结果。在处理过程中，涉及到正则表达式、数据帧操作和深度学习模型应用。同时，提出了行号匹配、list与str合并等问题的思考。

摘要由CSDN通过智能技术生成

需求与步骤描述

1、现在有一个excel表的数据需要对数据进行处理

2、需要将其中的几列合并到一起生成一列数据每列数据之间需要以一个空格进行分割

3、对合并在一起的数据按照 [中英文边界进行拆分，按照空格进行拆分，各类特殊进行拆分]

4、将按照三种方式拆分完的数据再次拼接成一个 excel 表[中间值用 DataFrame 存储]

5、去除新生成的excel表每个格数据所有的换行与回车，将空值表格用nan进行替换

6、删除整列都为空的列

7、将原始excel表格 xx列插入到新表格的首列，如果xx列没有则不插入

8、将数据输入到深度学习模型中进行预测输出每个个预测结果

9、找到每一行第一个等于4的值

10、在原始数据中抽取与预测是相等下标的值形成一个新的列表

需要注意与引发思考的地方

1、每一行的行号不是连续的值，如何保证使用正则拆分完的数据的行号与原始数据行号一致?

2、有某些列的数据是一个list 如何将 list与str合并?

3、如何快速找到预测完数据每一列中第一个等于7的值?

4、如何根据预测数据第一个7的下标找到相应拆分数据对应的值?

Python版本与所需依赖模块

版本：python3.6

依赖包
pandas
numpy
re

准备虚拟数据

import pandas as pd
data = [["TAM和TRA整合模型下移动xxxx支付工具xxxx使用意愿研究",["辛彬","洋鸿"],["重庆工程""韩国国民","韩国大田"],"山西农经",["TAM","TRA","移动支付"],"F724;F832"],
["关于当前xxxx网络支付的思考及sssss应用创xx新建议",["徐亮"],["江西景德镇农商银行"],"中国商论",["支付方式","思考","应用创新","建议"],"F724,F832"],
["xxxx新冠肺炎xxxx疫情与xxxx消费",["臧恒","陈开"],["山东师范","山东大学"],"消费经济",["消费支出","移动支付","中国居民消费"],"F724"]]  # excel 表数据
cols = ["Title","Author","Organ","Source","Keyword","CLC-中图分类号"]  # 表头
indexs = [3,5,7]  # 行号  注意行号不是连续的
df = pd.DataFrame(data, columns