Java面试笔试指南（七）---海量数据处理

最新推荐文章于 2024-06-28 08:15:00 发布

狮锅艺

最新推荐文章于 2024-06-28 08:15:00 发布

阅读量1.4k

点赞数

分类专栏： Java 文章标签： java 海量数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wee_Mita/article/details/78066962

版权

通过对海量数据的挖掘能有效地揭示用户的行为模式，加深对用户需求的理解，提取用户的集体智慧，从而为研发人员决策提供依据，提升产品和用户体验，进而占领市场

基础方法

1、Hash法

Hash一般被称为散列，一种映射关系（即给定一个数据元素，其关键字为key，按一个确定的散列函数计算出hash（key），并把hash（key）作为关键字key对应元素的存储地址，再进行数据元素的插入和检索操作），散列函数就是一种将任意长度的消息压缩到某个固定长度的消息摘要的函数

Hash主要是用来进行“快速存取”，在0（1）内就可以找到目标元素，或者判断其是否存在

散列表：是具有固定大小（一般为质数）的数组
冲突：就是两个关键字映射到同一个存储地址的情况

散列函数的特点：

运算应该尽可能简单
函数的值域必须在散列表的范围内
尽可能减少冲突

散列函数的构建方法：

直接寻址法：取关键字或关键字的某个线性函数值为散列地址，h(key)=a*key+b（这种方法不会产生冲突，但是由于它没有压缩，当关键字集合很大时，这种方法不肯能实现地址编码的散列）
取模法：选择一个合适的正整数p，h(key)=key mod p（如果选择的是比较大的素数，效果比价好，一般选取p为散列表大小）
数字分析法：分析关键字（简单直观，但是需要预先知道每个关键字的情况）
折叠法：将关键字分成位数为t的几部分

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。