大数据分析

一、大数据分析的方法
1.布隆过滤器
布隆过滤器由一个位数组和一系列的哈希函数组成。
原理:通过利用位数组来存储数据本身之外数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。
特点:空间效率高、查询速度快、具有一定的误识别率、删除困难
适用于:允许某种误识别率的大数据应用程序
2.散列法
将数据变换为较短的固定长度数值或索引值的基本方法
特点:快速读取、快速写入、高查询速度
难点:如何找到健全的散列函数
3.索引法
特点:减少磁盘读取和写入成本的有效方法;提高插入、删除、修改和查询速度;具有用于存储索引文件的附加成本,并且索引文件应当根据数据更新动态地维护
新学知识点:B数
4.字典树
又称单词查找树,是一个哈希树的变体
应用:快速检索和字频统计
原理思想:利用字符串的常见前缀来最大限度地减少字符串的比较,从而提高查询效率。
5.并行计算
原理思想:分解一个问题将其分配给几个独立的进程,以便独立完成从而实现协同处理。
二、大数据分析架构
1.实时分析
主要用于电子商务和金融
实时分析的现有架构包括使用传统关系数据库的并行处理集群和基于存储器的计算平台
2.离线分析
通常用于对响应时间没有较高要求的应用,例如机器学习、统计分析和推荐算法
离线分析目前技术上已经成熟
3.不同层次的分析

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值