大数据题目

通过位图和分段统计的方法解决大数据场景下的问题,如寻找未出现的数、重复的URL和中位数。利用位图节省空间,进行数字出现情况的标记;通过分段统计在内存限制下找出特定数字,例如在10MB内存下找到未出现的数。
摘要由CSDN通过智能技术生成

【题目】

32位无符号整数的范围是0~4,294,967,295, 现在有一个正好包含40亿个无符号整数的文件, 所以在整个范围中必然存在没出现过的数。 可以使用最多1GB的内存, 怎么找到所有未出现过的数?

对于这道题目可以使用位图。42亿的整数需要的存储空间为40亿* 4 Byte = 4 * 4 G = 16G,但如果使用位图只需要16G / 32 = 0.5G内存即可。位图如何使用呢?遍历40亿个整数,如果一个数出现,就把对应位置设置为1,入一个数是7000,就把bitMap[7000]设置为1。遍历完成后,再次遍历位图,如果碰到某一位上的数字为0,就说明这个数字不存在,入bitMap[8000] = 0,就说明8000这个数字不存在,遍历结束后,所有没出现的数字也都找到了。

如果数组过长,甚至于数组长度无法用整数来表示(源数据有几百亿条),可以将原本的长数组进行切片,将其作为二维数组来保存。最好将二维数组弄成一个正方形。这里可以给42亿开方。
【进阶】
内存限制为 10MB, 但是只用找到一个没出现过的数即可

如果只有10MB内存,可以使用分段统计。首先10MB = 1千万Byte = 8千万Bit,即10MB可以统计8千万个数字;总共有42亿数字,42亿 / 8千万 = 53(向上取整后得到53),所以可以将42亿数字分为53份,一份大约占8千万Bit;使用这10MB内存分别对这53份进行词频统计。因为只有40亿个数字,所以当我们统计每一份上的数字个数时,肯

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我可以为您提供一个大数据实操题目,您可以使用Python来完成。 题目描述: 某电商公司的订单数据存储在一个大型文本文件中,每一行代表一个订单,包含订单号、购买商品名称、购买数量、购买时间等信息。现在需要你编写一个Python程序,根据用户输入的关键字,在文本文件中查找包含关键字的订单,并输出相关信息。 具体要求: 1. 实现一个函数,输入参数为关键字和订单数据文件的路径,输出结果为包含关键字的订单信息列表。 2. 订单数据文件的格式如下: 订单号,商品名称,购买数量,购买时间 例如: 20210101001,手机,1,2021-01-01 10:10:10 20210101002,电脑,2,2021-01-02 10:10:10 20210101003,平板电脑,1,2021-01-03 10:10:10 3. 关键字可以是订单号、商品名称、购买数量、购买时间中的任意一个或多个。 4. 输出结果为包含关键字的订单信息列表,每个订单信息包括订单号、商品名称、购买数量、购买时间等信息。 5. 如果没有匹配的订单信息,输出提示信息:未找到符合条件的订单信息。 6. 代码需要具有一定的容错性,能够处理文件不存在、文件格式错误等异常情况。 示例输入: find_orders('手机', 'order.txt') 示例输出: [['20210101001', '手机', '1', '2021-01-01 10:10:10']] 提示: 您可以使用Python内置的文件读写函数,例如open()函数和readlines()函数,来读取订单数据文件中的数据。您可以使用字符串的split()函数,来将每一行订单数据分割成订单号、商品名称、购买数量、购买时间等信息。您可以使用Python内置的列表和字符串函数,例如append()函数和find()函数,来实现订单信息的查找和筛选。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值