Python实现批量按顺序读取txt文本并保存到新文本txt中

最新推荐文章于 2024-06-13 01:21:52 发布

Pandas_007

最新推荐文章于 2024-06-13 01:21:52 发布

阅读量4.5k

点赞数 4

分类专栏： Python基础学习新手入门基础学习文章标签： python 开发语言经验分享

本文链接：https://blog.csdn.net/qq_57329395/article/details/127938829

版权

基础学习同时被 3 个专栏收录

26 篇文章 1 订阅

订阅专栏

新手入门

22 篇文章 0 订阅

订阅专栏

Python基础学习

18 篇文章 1 订阅

订阅专栏

问题引入：

常见问题：

①文本顺序错误

解决方案：在os.lisdir()运行后的文件排序方法：

①文件名只由数字构成的排序方法：

②文件名中有数字以及其他符号的排序方法

问题引入：

在下载一本小说或者代码说明时，往往是一章一章分开的，导致阅读繁琐，这时我们可以通过python来批量获取txt文本，然后再汇总保存到一个新的文本之中，方便后续查看。

读取所有文本时，可能由于某些文本是'utf-8'的编码规则，某些文本是‘ANSI’编码规则，导致通过with open(path，'r',encoding='utf-8')的方法来读取时报错。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 4: invalid start byte

这时我们可以借助chardet库来获得其编码方式，从而解码，如果没有可以先进行安装

pip install chardet

运行以下代码获得对应方式并进行相应的解码decode

import chardet
f = open(path,'rb')  #path为要打开的文本路径
r = f.read()
#获取文本的编码方式
f_charInfo = chardet.detect(r)
print(f_charInfo) #输出文本格式信息
print(f_charInfo['encoding']) #取得文本格式
print(r.decode(f_charInfo['encoding'])) #通过取得的文本格式读取txt

返回一个字典参数如下：{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

encoding：表示字符编码方式。
confidence：表示可信度，也可以理解为检测的概率。
language：语言。

常见问题：

①文本顺序错误

在获取全文的过程中，需要先获取文件夹下的所有文件，但单纯通过os.listdir()来获取所有文件后，会发现顺序出现了问题，导致后续所有文本的顺序出错

错误如下图所示：

解决方案：在os.lisdir()运行后的文件排序方法：

①文件名只由数字构成的排序方法：

如图所示：

files.sort(key=lambda x:int(x.split(".")[0]))

通过lambda表达式，获取.txt后缀名之前的数字，然后以此来排序，从而获得正确的文件顺序

②文件名中有数字以及其他符号的排序方法

如图所示：

可以看到我这里有“-”符号作为标识符，通过使用find（）函数来获取其后面的数字，然后进行排序

files.sort(key=lambda x:int(x.split(".")[0][x.find('-')+1:]))

上面一行代码不懂的话，看这里代码拆分详解：

t1='Listing 1-71.txt' 
t2=t1.split(".")[0] #获取.前面的字符串
t3=t2[t1.find('-')+1:]  #获取之后通过find('-')获得其后面的数字
t3=int(t3) #最后转化为int类型进行排序

排序后的结果：

最后将文本保存到新的文本中

    with open(itspath+'//'+itsname+'.txt','w') as f2:
        f2.write(txts)

End~附上我的代码：

def read_all_txt(itspath,itsname):
    import os
    import chardet
    files= os.listdir(itspath) #得到文件夹下的所有文件名称
    files.sort(key=lambda x:int(x.split(".")[0][x.find('-')+1:]))
    txts = []
    for file in files: #遍历文件夹
        position = itspath+'\\'+ file #构造绝对路径，"\\"，其中一个'\'为转义符
        print (position)
        file[file.find('-')+1:]
        try:
            f = open(position,'rb')
            r = f.read()
         #获取文本的编码方式
            f_charInfo = chardet.detect(r)
            print(f_charInfo) #输出文本格式信息
            print(f_charInfo['encoding']) #取得文本格式
            print(r.decode(f_charInfo['encoding'])) #通过取得的文本格式读取txt
            txts.append(r.decode(f_charInfo['encoding']))
            f.close()
        except:
          if f:
            f.close()
            print('err')
           # txts.append(data)
    txts = ','.join(txts) #将列表变成字符串
    #最后保存到文本中
    with open(itspath+'//'+itsname+'.txt','w') as f2:
        f2.write(txts)
    print('获取全文并保存成功')

if __name__ == "__main__":
    itspath=r"E:\各类比赛\数学建模\Python机器学习5个数据科学家案例解析配套数据-python-ml-case-studies-master\Book\Chapter 1 files\Listings" #文件夹目录
    itsname='alltext'#保存的文本名称
    read_all_txt(itspath, itsname)

以上是本人的个人总结，如有错误请各位大佬批评指正！！~

Pandas_007

关注

4
点赞
踩
27

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python实现批量按顺序读取txt文本并保存到新文本txt中

将小说章节、章回目录各种零散的数据进行批量汇总到txt中。通过os批量获取文本并保存到新的文本中，借助chardet库解决with open()读取文本报错的问题，以及通过lambda表达式对os.listdir()之后的数据进行排序。
复制链接

扫一扫