<一>数据收集
Heritrix 更专注于网络信息的下载
Solr:Solr 是一个基于Lucene的Java搜索引擎服务器
拉取模式:主动权在系统,可以缓冲高峰数据
<1>Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
<2>Logstash 是一款轻量级的日志搜集处理框架,
<3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
<4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
持久化存储:将数据永久的记录在磁盘上
HBase 列式存储
外部数据收集
数据源:PC端数据,App移动端数据
Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,Heritrix 更专注于网络信息的下载
Solr:Solr 是一个基于Lucene的Java搜索引擎服务器
内部收集收集
数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式
推送模式:实时性高,系统配置的容量需要超过峰值拉取模式:主动权在系统,可以缓冲高峰数据
<1>Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
<2>Logstash 是一款轻量级的日志搜集处理框架,
<3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
<4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
持久化存储:将数据永久的记录在磁盘上
应用级的分布式文件存储服务:
HDFS
GFS
TFS : Taobao File System,
HayStack Fackbook用于存储照片的系统
数据库存储系统:HBase 列式存储