由于最近疫情的影响,相信最近很多小伙伴都忙于线上办公或者面试😭,笔者这里分享一道发生在大厂前端线上编程面试中的一道题目,
如何让 6000 万数据包和 300 万数据包在仅 50M 内存环境中求交集,请简单说出您解决这问题的思路
我们假设现在有两份庞大的数据,而这两份数据包的数据结构均如下,仔细观察里面的数据我们不难发现,里面有 QQ 号,地址和年龄,如题目的要求我们需要是求交集,所以我们暂时可以忽略地址和年龄,以 QQ 号作为唯一标识:
QQ:40645253 地址:xxx 年龄:xxx
QQ:49844525 地址:xxx 年龄:xxx
QQ:51053984 地址:xxx 年龄:xxx
QQ:15692967 地址:xxx 年龄:xxx
QQ:39211026 地址:xxx 年龄:xxx
// 以下省略 6000 万条数据
...
梳理了上面的数据包结构之后,我们就得看看 50M 内存是什么情况了,由于面试在线上进行,只能短时间在本地测试下上面这个数据量在本地会占有有多大空间,那由于限于是场前端面试,所以笔者选用了 NodeJS 去制造这些庞大的数据了,当时线上编写的时候是没注释的,这里为了方便小伙伴理解,在写这篇文章的时候我自觉加上了😁
const fs = require("fs");
const path = require('path');
const writer = fs.createWriteStream(path.resolve(__dirname, 'data-60M.txt'), {
highWaterMark: 1 });
const writeSixtyMillionTimes = (writer) => {
const write = () => {
let data = Buffer.from(`${
parseInt(Math.random() * 60000000)}\n`)
let ok = true;
do {
i--;
if (i === 0) {
// 最后一次写入。
writer.write(data);
} else {
// 检查是否可以继续写入。
// 不要传入回调,因为写入还没有结束。
ok = writer.write(data);
}
} while (i > 0 && ok);
if (i > 0) {
// 被提前中止。
// 当触发 'drain' 事件时继续写入。
writer.