小工具记录-CSDN博客

本文链接：https://blog.csdn.net/qq_42684862/article/details/140551413

一.怎么把多个.txt文件合并为一个。

1. 使用命令行工具（适用于Windows和Linux）

在Windows系统中，可以使用copy命令；在Linux系统中，可以使用cat命令。

Windows:

打开命令提示符（CMD）或PowerShell，然后输入以下命令：

copy /b file1.txt + file2.txt + file3.txt output.txt

这里，file1.txt、file2.txt 和 file3.txt 是你想要合并的文件，output.txt 是合并后的文件名。

Linux:

打开终端，然后输入以下命令：

cat file1.txt file2.txt file3.txt > output.txt

同样，file1.txt、file2.txt 和 file3.txt 是你想要合并的文件，output.txt 是合并后的文件名。

2. 使用Python脚本

如果你熟悉Python，可以写一个简单的脚本来合并文件。以下是一个示例脚本：

python复制

import sys

# 检查是否有文件作为参数传递
if len(sys.argv) < 3:
    print("Usage: python merge_files.py output_file input_file1 [input_file2 ...]")
    sys.exit(1)

output_file = sys.argv[1]
input_files = sys.argv[2:]

with open(output_file, 'w') as outfile:
    for fname in input_files:
        with open(fname, 'r') as infile:
            outfile.write(infile.read() + '\n')

将这段代码保存为 merge_files.py，然后在命令行中运行：

python merge_files.py output.txt file1.txt file2.txt file3.txt

二、数据去重

1.python的set()函数

with open('input.txt', 'r') as file:
    lines = file.readlines()

unique_lines = list(set(lines))

with open('output.txt', 'w') as file:
    file.writelines(unique_lines)

2.python的pandas函数

import pandas as pd

df = pd.read_csv('input.txt', header=None, sep='\n')
unique_df = df.drop_duplicates()
unique_lines = unique_df[0].tolist()

with open('output.txt', 'w') as file:
    file.writelines([line + '\n' for line in unique_lines])

3.liunx命令（特别好用）