需求与步骤描述
1、现在有一个excel表的数据需要对数据进行处理
2、需要将其中的几列合并到一起生成一列数据 每列数据之间需要以 一个空格进行分割
3、对合并在一起的数据 按照 [中英文边界进行拆分,按照空格进行拆分,各类特殊进行拆分]
4、将按照三种方式拆分完的数据再次拼接成一个 excel 表[中间值用 DataFrame 存储]
5、去除新生成的excel表每个格数据所有的换行与回车,将空值表格用nan进行替换
6、删除整列都为空的列
7、将原始excel表格 xx列插入到新表格的首列,如果xx列没有则不插入
8、将数据输入到 深度学习模型中进行预测输出每个个预测结果
9、找到每一行第一个等于4的值
10、在原始数据中抽取 与预测是相等下标的值形成一个新的列表
需要注意与引发思考的地方
1、每一行的行号不是连续的值,如何保证使用正则拆分完的数据的行号与原始数据行号一致?
2、有某些列的数据是一个list 如何 将 list与str合并?
3、如何快速找到预测完数据每一列中第一个等于7的值?
4、如何根据预测数据第一个7的下标找到相应拆分数据对应的值?
Python版本与所需依赖模块
版本:python3.6
依赖包
pandas
numpy
re
准备虚拟数据
import pandas as pd
data = [["TAM和TRA整合模型下移动xxxx支付工具xxxx使用意愿研究",["辛彬","洋鸿"],["重庆工程""韩国国民","韩国大田"],"山西农经",["TAM","TRA","移动支付"],"F724;F832"],
["关于当前xxxx网络支付的思考及sssss应用创xx新建议",["徐亮"],["江西景德镇农商银行"],"中国商论",["支付方式","思考","应用创新","建议"],"F724,F832"],
["xxxx新冠肺炎xxxx疫情与xxxx消费",["臧恒","陈开"],["山东师范","山东大学"],"消费经济",["消费支出","移动支付","中国居民消费"],"F724"]] # excel 表数据
cols = ["Title","Author","Organ","Source","Keyword","CLC-中图分类号"] # 表头
indexs = [3,5,7] # 行号 注意行号不是连续的
df = pd.DataFrame(data, columns