python对txt文件的读写、覆盖写、追加内容、内容按列排序、内容去重

最新推荐文章于 2025-04-07 15:58:01 发布

凝眸伏笔

最新推荐文章于 2025-04-07 15:58:01 发布

阅读量2.9w

点赞数 9

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/pearl8899/article/details/115358839

版权

python 专栏收录该内容

29 篇文章

订阅专栏

1.txt文件的读

读文件demo：

with open('test.txt', 'r') as f:
    for line in f:
        # 遍历f中的每一行，开始对line进行操作

将文件读入数组中(文件中存放的得是数字)

import numpy as np
data = np.loadtxt("data.txt")   #将文件中数据加载到data数组里

2.txt文件的写

写文件demo：这个也可以是覆盖写文件的格式，参数用w

with open('test.txt', 'w') as writers: # 打开文件
    a = 'xxx'
    writers.write(a) # 将内容写到文件中
writers.close() # 关闭文件，此处可以理解为保存

在一个文件尾部追加新内容demo:

with open('test.txt', 'a+') as writers: # 打开文件
    a = 'xxx'
    b = 'yyy'
    writers.write(a + ‘,’ + b) # 将内容追加到到文件尾部
    #如果要按行写入，我们只需要再字符串开头或结尾添加换行符'\n'
    writers.write(a + '\n')
    # 如果想要将多个变量同时写入一行中，可以使用writelines()函数,要求将传入的变量写成一个list：
    writers.writelines([a, ',', b])

读写追加的主要区别，体现在open()函数中的mode参数上，关于open()的mode参数：

‘r’：读
‘w’：写， 覆盖写
‘a’：追加
‘r+’ == r+w（可读可写，文件若不存在就报错(IOError)）
‘w+’ == w+r（可读可写，文件若不存在就创建）
‘a+’ ==a+r（可追加可写，文件若不存在就创建）
对应的，如果是二进制文件，就都加一个b就好啦：
‘rb’　　‘wb’　　‘ab’　　‘rb+’　　‘wb+’　　‘ab+’

3.python将文件内容按照某列值重新排序

python实现将文件内容按照某一列内容的大小值（不局限于数值，也可以是字母顺序）重新排序。

eg：将下面的内容按照第一列进行排序：
代码：

print(''.join(sorted(open('data.txt'), key=lambda s: s.split('\t')[0], reverse=1)))

排序前：
orgs    腾讯
orgs    腾讯
name    阿里
name    美团
name    华为
name    京东
orgs    网易
name    小米
orgs    上海
排序后：
orgs    腾讯
orgs    腾讯
orgs    网易
orgs    上海
name    阿里
name    美团
name    华为
name    京东
name    小米

文本排序后保存到txt文件中：

    # 文本排序并保存
    output_file = './search.txt'
    output_file_sort = './search_sort.txt'
    with open(output_file_sort, 'a') as writersort:
        writersort.write(''.join(sorted(open(output_file), key=lambda s: s.split('\t')[0], reverse=1)))

4.内容去重

1.小文件去重实现

第一步，读取文件每一行，并处理掉换行符
第二步，将文件内容去重
第三步，写到新文件里
demo:

def file_remove_same(input_file, output_file):
    """
        针对小文件去重
    :param input_file: 输入文件
    :param out_file: 去重后出文件
    :return:
    """
    with open(input_file, 'r', encoding='utf8') as f, open(output_file, 'a', encoding='utf8') as ff:
        data = [item.strip() for item in f.readlines()]  # 针对最后一行没有换行符，与其他它行重复的情况
        new_data = list(set(data))
        ff.writelines([item + '\n' for item in new_data if item])  # 针对去除文件中有多行空行的情况

2.大文件几十个G

就不能加载到内存中了，强行加载到内存中直接报内存错误

解决方案：

将文件按行读取，根据内容生成一个指纹（md5值或者其他唯一可识别的值），将指纹存集合中，当逐行读取的过程中判断集合中是否已经含有该行元素的指纹。如果指纹没有添加到集合中，则添加指纹到集合中并将此行追加输出到输出文件中。如果指纹已经在集合中了，说明此行与上面的某一行重复。
demo:

def gen_md5(data):
    """
        生成md5
    :param data: 字符串数据
    :return:
    """
    md5 = hashlib.md5()
    md5.update(data.encode('utf-8'))
    return md5.hexdigest()
    
 def big_file_remove_same(input_file, output_file):
    """
        针对大文件文件去重（将文件文件写在一行的，没有办法去重）
    :param input_file:
    :param output_file:
    :return:
    """
    finger_print_set = set()
    with open(input_file, 'r', encoding='utf8') as f, open(output_file, 'w', encoding='utf8') as ff:
        for line in f:
            line_string = line.strip()
            finger_print = gen_md5(line_string)
            if finger_print not in finger_print_set:
                finger_print_set.add(finger_print)
                ff.write(line)

参考：
1.去重：https://blog.csdn.net/ymmbjcz/article/details/94871766