超大大文件替换与对比问题

最新推荐文章于 2022-09-24 10:10:56 发布

鲸鱼漫步

最新推荐文章于 2022-09-24 10:10:56 发布

阅读量721

点赞数

分类专栏：运维环境文章标签： linux

本文链接：https://blog.csdn.net/weixin_42108319/article/details/105831583

版权

运维环境专栏收录该内容

4 篇文章 0 订阅

订阅专栏

工作中发现本地服务器和云服务生成的成果文件大小不同，两个文件都在11G以上，且有随机码，比较十分困难

为此需要做两件事情：

1.替换随机码

引文使用的是windows环境，自然想使用powershell去处理，但大文件替换，吃内存十分严重。卡死

Get-ChildItem C:\share\67 | ForEach-Object -Process{
if($_ -is [System.IO.FileInfo])
{
Write-Host($_.fullname);
$content = Get-Content -path $_.fullname
$newName=-join($_.fullname,'.new')
$content -Replace '\?\?\?0x[0-9A-F]*', '' |  Out-File  -Encoding utf8 $newName
}
}

后安装cygwin,使用linux的sed命令去处理。内存和CPU几乎不吃。

大文件查看命令 tail 和 head也非常实用。

 sed 's/???0x[0-9A-F]*//g' out_analyze_data_getCPAType.txt > del_228_result.txt

tail -n 100 /etc/cron  #显示最后100行数据
tail -n -100 /etc/cron #除了前99行不显示外，显示第100行到末尾行

2.比较两个大文件

本想使用LInux的diff命令，但内存依然耗尽。又想使用split命令按行切割，但考虑行数不一致，都否决了。必须两个大文件进行比较了 byond compare ，但运行时间超长12小时以上

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鲸鱼漫步

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Pyhton实现文本文档，单文件txt去重和双文件对比去重，G级以上的文件都没问题！

my20080617的博客

06-15

728

Python 写的 txt的单文件去重。和双文件对比去重，文件数据在G级别以上都没问题。经测试，单文件去重5GB的txt仅需要不到1分钟。双文件对比去重时间没有测试。也很快！单文件去重代码 # -*- coding:utf-8 -*- #! python2 import shutil a=0 readDir = "E:/1.txt" #old writeDir = "E:/2.txt"...

大文件读取比较

MSDA的专栏

11-29

3505

<br />由于工作中频繁涉及文件IO,借周五下午的一点空隙,研究了一下标准IO库的IO效率和文件映射机制的IO效率。我用一个2G的数据文件作为测试对象,该数据文件中一共有6213834条记录，每一行为一条记录。file_fgets函数用fgets的方法来按行读取数据，file_mmap函数先使用mmap机制来把这个大文件映射到程序内存，然后再按行解析数据记录。<br />源代码如下：<br />#include <cstdio> #include <cstdlib> #include <cstring

参与评论您还未登录，请先登录后发表或查看评论

linux替换大文件内容,Linux批量替换文件内容

weixin_36196497的博客

04-28

2954

今天测试人员一不小心把导航的地址改错了，大约6000多个导航文件，要通过后台配置的话也很麻烦，可以通过linux命令实现对批量文件进行内容替换，但是技术经理不在，我对linux命令不熟，没办法只好硬着头皮来。经在网上一番辛苦搜索，找到以下几个命令，并尝试执行……最终终于实现效果，哎，“书到用时方恨少”，特此针对今天的情况总结了一下Linux批量替换文件内容的命令，第一种：格式：sed -i "s/...

两个大文件，比较这两个大文件的差异

weixin_34228662的博客

07-20

961

有两个文件A和B，分别保存了一个系统两天的数据快照。a.txt（格式为：号码,姓名,年龄,姓别,状态）13900001111,小A,20,男,0113900001112,小H,20,女,0613900001113,小C,20,男,0613900001114,小D,20,男,0413900001116,小E,20,女,0413900001118,小F,20,男,...

python替换大文件_python初学者快速查找和替换大文件的方法？

weixin_36473855的博客

01-29

155

我有一个大约1亿行的文件，我想用存储在制表符分隔的文件中的替代文本替换文本。我的代码可以工作，但是要花一个小时来处理第一个70K行。输入为了逐步提高我的python技能，我想知道是否有更快的方法来实现这一点。谢谢！输入文件如下所示：CHROMOSOME_IV ncRNA gene 5723085 5723105 . - . ID=Gene:WBGene00045518CHRO...

超大文本文件处理程序

03-27

7. **比较与合并**：PilotEdit还可以进行文件比较，帮助用户识别两个文本文件之间的差异，并提供合并选项，这对于版本控制或冲突解决非常有帮助。 8. **安全性**：PilotEdit支持文件加密，保护敏感信息不被未经授权...

超大文件编辑器PilotEdit

08-30

总的来说，PilotEdit作为一款专业级的超大文件编辑器，凭借其对大文件的卓越处理能力、丰富的文件格式支持、强大的搜索与编辑功能以及人性化的操作设计，成为了Windows平台上不可或缺的工具之一。无论你是开发者、...

超大文件阅读器

06-14

5. 查找与替换：提供强大的查找和替换功能，允许用户在大文件中寻找特定文本或模式，并进行批量替换。二、应用场景 1. 日志分析：在服务器维护中，系统日志文件通常非常庞大，超大文件阅读器能帮助管理员快速定位...

JS文件替换神器--Chrome ReRes插件

05-14

在前端开发过程中，JS（JavaScript）文件的调试和替换是一项常见任务，而"JS文件替换神器--Chrome ReRes插件"正是为了解决这个问题而设计的。这款插件是专为Chrome浏览器定制的，它允许开发者快速地替换网页上的...

文本文件字节集寻找替换.rar

03-19

这可以通过遍历文件的每一个字节，然后对比当前字节序列是否与目标字节集匹配来实现。如果匹配，记录下该位置以便后续替换。在编程中，可以使用循环结构和条件语句来实现这一功能，例如在Python中，可以使用`open()`...

文件比较

qq_38450982的博客

04-18

1010

我们经常会遇到需要比较两个文件的内容的情况。例如已经将可以工作的代码进行的备份，如果哪一天不小心误操作了导致代码不能工作，只需要将出问题的工程中的代码和我们备份的进行比较，替换掉不同的文件即可。文件比较可以同时检查文本文件和二进制文件。 1、文本文件我们首先创建两个文本文件来进行比较。文件内容包含用户的帮助信息，在终端中运行以下命令： adduser --help > addu...

java操作大文件3种方法对比

z_917924497的博客

09-24

712

java读取大文件的3种方式比较

python 快速比较大文件的元素异同之处

weixin_40950781的博客

07-11

719

python 快速比较大文件的元素异同之处0x00 问题0x01 解决方法0x02 list最多可以存放多少条数据呢？0x03 集合set的操作 0x00 问题假如，在有两个大文件分别存储了大量的数据，数据其实很简单就是一堆字符串，每行存储一条，如何快速筛选出两个文件的异同之处么，或者如何筛选出两个文件中不同的元素呢？刚开始我是通过最简单的方法，利用for循环去一个个的判断，时间复杂度为m的n次幂，当然当文件数量级为十万或者百万时，速率简直慢到了极点。 0x01 解决方法利用set()的differe

脚本文件太大无法编辑替换内容

BusyMonkey

02-04

515

@echo off setlocal enabledelayedexpansion for /f "eol=* tokens=*" %%i in (文件路径) do ( set a=%%i set "a=!a:被替换内容=替换内容!" echo !a!>>$) move $ 输出文件路径 pause

几种读大文件方法的效率对比测试

Jacky_Cmd

11-20

889

说明： 1、首先调用了 generateBigFile() 生成一个大的txt 文件 a.txt，大小是 1.88G 。 [java] view plain copy package com.other.test1; import java.io.BufferedReader; import java.i

分治法对比大文件URL

靖节先生的博客

09-09

455

分治法对比大文件内rul1. 需求描述2. 原理分析2.1. 布隆过滤器2.2. 分治法3.实现验证3.1 文件准备3.2 代码实现3.3 结果验证 1. 需求描述给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 2. 原理分析 2.1. 布隆过滤器采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，此时需要的哈希函数k约为8个。元素个数：n = 5G 位数组大小：m = 5G *

python可以处理特别大的数据文件吗_Python 3.7：对大型数据文件进行性能调优比较...

weixin_39716971的博客

11-26

183

不确定是否已经太晚了，但它来了。我看到你正在内存中加载2个数组，包含完整的文件。如果你说它们各自大约3 GB，那就是尝试在RAM中填充6 GB并且可能进入交换。此外，即使您成功加载文件，您也在尝试~L1xL2字符串比较（L1和L2是行数）。我已经在1.2 GB（330万行）中运行以下代码，并在几秒钟内完成。它使用字符串哈希，并且只在RAM中加载一组L1 integer32。诀窍是在这里完成的，在将...

编辑替换大文件中的数据sed

clcj66885的博客

03-24

398

使用sed编辑替换大文件中的数据 # 替换文件中的所有匹配项 sed -i 's/原字符串/替换字符串/g' filename 例如替换backup_40.sql 文件中的ucs2为utf8 sed -i ...

比较两个大文本文件的差异并输出增量和减量

王鸿飞的专栏

03-09

4207

现有两个4G大小、按行分割、每行为50字符(大小写字母)的text文件A, B, 现在需要在有限的内存下(如2G)以B文件为基准，计算出B相对于A增加了哪些数据和减少了哪些数据，分别以added.txt和deleted.txt命名保存。要求不能使用Spark或Hadoop这样的大数据处理框架。思路：首先使用外排序算法对A, B分别按字典序排序，输出a.sorted和b.sorted两个文件，然...

QT 怎样高效大文件替换小部分数据内容