大数据和云计算技术总结

最新推荐文章于 2022-12-10 15:14:25 发布

要动手

最新推荐文章于 2022-12-10 15:14:25 发布

阅读量4.1k

点赞数 3

分类专栏：大数据云计算文章标签：大数据分布式云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010232651/article/details/52350049

版权

本文总结了大数据的收集和存储，包括HDFS、GFS、TFS等分布式文件系统，以及Redis等分布式缓存系统；介绍了云计算的核心技术，如虚拟化、服务化，并提及了公共云提供商如Amazon S3、微软Azure、阿里云等；同时提到了云时代的部署工具如OpenStack、Mesos和配置管理系统Chef，以及容器化技术的应用。

摘要由CSDN通过智能技术生成

<一>数据收集

外部数据收集

数据源:PC端数据,App移动端数据

Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,
Heritrix 更专注于网络信息的下载
Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

内部收集收集

数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

推送模式:实时性高,系统配置的容量需要超过峰值
拉取模式:主动权在系统,可以缓冲高峰数据
<1>Apache Flume 是一个分布式可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
<2>Logstash 是一款轻量级的日志搜集处理框架,
<3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
<4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
持久化存储:将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS

GFS

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

数据库存储系统:
HBase 列式存储

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。