Python的Excel处理一：事项txt格式到Excel格式的转换，并提取Excel中指定关键字所在的所有行数据

Jackson的生态模型

已于 2022-10-16 13:23:00 修改

阅读量1.6k

点赞数 1

分类专栏： Python 文章标签： python pandas 数据分析数据挖掘

于 2022-09-24 16:17:59 首次发布

本文链接：https://blog.csdn.net/amyniez/article/details/127026258

版权

Python 专栏收录该内容

15 篇文章 4 订阅

订阅专栏

1. txt格式到Excel格式转换

1. 文件展示：
在这里插入图片描述

2. txt文件内容：

在这里插入图片描述

import os
import pandas as pd

filePath = r'E:\wenjian\practice'

filenames = [file for file in os.walk(filePath)]
ds = []
lis = []
for each in filenames[0][-1]:
    with open(filenames[0][0]+'\\'+each,mode='r',encoding='utf-8')as f:
        data = f.readlines()
        datas = [each.split() for each in data]
        ds.append(datas)

[lis.extend(i) for i in ds]
df = pd.DataFrame(lis)
df = df.drop_duplicates()

df.to_excel('translate.xlsx',header=False, index=False)

合并效果：
在这里插入图片描述

2.提取Excel中指定关键字所在的所有行数据

import xlrd2
import xlwt


def read_excel():
    workbook = xlrd2.open_workbook('F:\\new5.xls') #读取源excel文件，最好利用绝对路径（完整路径，从哪个盘开始）
    jieguo = xlwt.Workbook(encoding="ascii")  #生成excel
    wsheet = jieguo.add_sheet('sheet name') #生成sheet
    sheetnum=workbook.nsheets  #获取源文件sheet数目
    y=0 #生成的excel的行计数
    for m in range(0,sheetnum):
        sheet = workbook.sheet_by_index(m) #读取源excel文件第m个sheet的内容
        nrowsnum=sheet.nrows  #获取该sheet的行数
        for i in range(0,nrowsnum):
            date=sheet.row(i) #获取该sheet第i行的内容
            for n in range(0,len(date)):
                aaa=str(date[n]) #把该行第n个单元格转化为字符串，目的是下一步的关键字比对
                if aaa.find('keyword')>0: #进行关键字比对，包含关键字返回1，否则返回0
                    y=y+1
                    for j in range(len(date)):
                        wsheet.write(y,j,sheet.cell_value(i,j)) #该行包含关键字，则把它所有单元格依次写入入新生成的excel的第y行

    jieguo.save('F:\\new5Result.xls') #保存新生成的Excel


if __name__ == '__main__':
    read_excel()