python dataframe 求某列是前几列和_Python开发小需求之excel各种操作

本文介绍了使用Python处理Excel数据的需求,包括合并特定列、按规则拆分、处理数据格式、预测及提取结果。在处理过程中,涉及到正则表达式、数据帧操作和深度学习模型应用。同时,提出了行号匹配、list与str合并等问题的思考。
摘要由CSDN通过智能技术生成

需求与步骤描述

1、现在有一个excel表的数据需要对数据进行处理

2、需要将其中的几列合并到一起生成一列数据 每列数据之间需要以 一个空格进行分割

3、对合并在一起的数据 按照 [中英文边界进行拆分,按照空格进行拆分,各类特殊进行拆分]

4、将按照三种方式拆分完的数据再次拼接成一个 excel 表[中间值用 DataFrame 存储]

5、去除新生成的excel表每个格数据所有的换行与回车,将空值表格用nan进行替换

6、删除整列都为空的列

7、将原始excel表格 xx列插入到新表格的首列,如果xx列没有则不插入

8、将数据输入到 深度学习模型中进行预测输出每个个预测结果

9、找到每一行第一个等于4的值

10、在原始数据中抽取 与预测是相等下标的值形成一个新的列表

需要注意与引发思考的地方

1、每一行的行号不是连续的值,如何保证使用正则拆分完的数据的行号与原始数据行号一致?

2、有某些列的数据是一个list 如何 将 list与str合并?

3、如何快速找到预测完数据每一列中第一个等于7的值?

4、如何根据预测数据第一个7的下标找到相应拆分数据对应的值?

Python版本与所需依赖模块

版本:python3.6

依赖包
pandas
numpy
re

准备虚拟数据

import pandas as pd
data = [["TAM和TRA整合模型下移动xxxx支付工具xxxx使用意愿研究",["辛彬","洋鸿"],["重庆工程""韩国国民","韩国大田"],"山西农经",["TAM","TRA","移动支付"],"F724;F832"],
["关于当前xxxx网络支付的思考及sssss应用创xx新建议",["徐亮"],["江西景德镇农商银行"],"中国商论",["支付方式","思考","应用创新","建议"],"F724,F832"],
["xxxx新冠肺炎xxxx疫情与xxxx消费",["臧恒","陈开"],["山东师范","山东大学"],"消费经济",["消费支出","移动支付","中国居民消费"],"F724"]]  # excel 表数据
cols = ["Title","Author","Organ","Source","Keyword","CLC-中图分类号"]  # 表头
indexs = [3,5,7]  # 行号  注意行号不是连续的
df = pd.DataFrame(data, columns
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值