大数据处理的相关技术

“大数据”是这几年非常流行的一个词,大的互联网、电商、人工智能,还有很多传统的如金融、医疗、交通等行业,都在绞尽脑汁的通过大数据分析,来提高生产效率。对于大数据的处理,我们主要要实现几大方面的功能:数据采集、分析、存储、分布式技术、集群协调管理、机器学习。目前大数据处理方面,也出现了很多非常好的技术,主要有:Hadoop、Spark、Stom、Hive、HBase、Mongodb、ElasticSearch、Zookeeper等。接下来想通过多个专题来分别介绍这些技术,包括其原理、应用场景。下面先对各个技术做一个概述:

一、数据采集

由于数据来源的限制,数据采集上可能很不一样,最典型的有网络爬虫、网站数据库数据、日志文件等。其中网络爬虫涉及网站页面抓取,链接抽取(URL Extractor),链接过滤(URL Filter。),内容抽取((Content Extractor),爬取URL队列(Site URL Frontier)和数据存储。

 

二、数据存储

1、传统关系型数据库:Oracle、SqlServer、MySql等,因为这些数据库难以横向扩展,面对海量的数据很进行有效处理。

2、NoSQL数据库:几个有代表性Redis、MongoDB、HBase。Redis是一个Key-Value模式的数据库,主要用于缓存操作;MongoDB是在传统关系型数据库下,对事务性进行妥协,这样就可以实现一些传统数据库不能实现的功能,比如海量数据、分布式处理等;HBase也是一个Key-Value型数据库,是基于Hadoop的,具备海量数据存储和分布式并行计算功能,这两点是Redis不具备的,但是Redis是实时的,HBase只能满足准实时状态。Redis通过Codis框架现在也可以实现分布式存储。

3、HDFS:是Hadoop的一个核心功能,提供分布式文件存储。

 

三、数据挖掘和分析

1、Storm:流式实时计算,其计算模式与Hadoop中的MapReduce类似

2、Hive:Hadoop之上的批处理数据分析工具,提供了类似于SQL语言的查询语言,通过MapReduce实现分布式并行计算,非实时的。

3、Spark Streaming:流式实时计算,按时间单位分割数据

4、Kylin:Hadoop之上的分布式的大数据分析引擎,它对外暴露的是标准SQL接口,支持TB到PB量级的数据,以秒级甚至亚秒级的时间返回响应。

 

四、机器学习

1、Mahout:在hadoop之上运行,提供一些可扩展的机器学习领域经典算法的实现

2、Spark ML:Mahout是hadoop的一个机器学习库,主要的编程模型是MapReduce;Spark ML则是基于Spark的机器学习,Spark自身拥有MLlib作为机器学习库。现在Mahout已经停止接受新的MapReduce算法了,向Spark迁移,也就是现在的Spark ML

3、TensorFlow:google提供的开业机器学习库。

4、R语言:于统计分析、绘图的语言,可以实现各种数据挖掘算法

5、Python语言:在大数据分析、机器学习、数据采集、系统维护等方面使用比较广泛,如果要在Java语言之外再掌握一门编程语言,最好就是Python了

 

 

五、分布式、集群管理

1、Zookeeper:集群协同服务,提供统一命名、配置、集群管理、分布式锁、负载均衡、分布式队列管理等功能,目前很多需要在集群计算框架都结合Zookeeper来使用,如Kafka、SolrCloud、Storm、

2、 Hadoop:分布式存储和计算,其核心为HDFS和MapReduce

 

六、消息服务

1、StormMQ、ZeroMQ、RabbitMQ、ActiveMQ

2、Kafka:基于分布式,高吞吐量,实时消息平台,是在集群消息处理中比较好的技术方案。

 

七、搜索引擎

1、Lucene:搜索引擎框架,提供数据索引和搜索接口,使用简单功能强大,有不少搜索引擎框架基于此开发

2、Nutch:基于Lucene的Web搜索引擎,同时实现了网络爬虫功能,以及搜索引擎的管理界面 

3、Solr:基于Lucene的搜索引擎,是一个独立的企业级搜索应用服务器,之后结合Zookeeper发展出分布式搜索方案SolrCloud

4、ElasticSearch:基于Lucene的分布式搜索引擎框架

5、Sphinx:基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索

 

八、基础服务

1、OpenStack:覆盖了网络、虚拟化、操作系统、服务器等各个方面,作为云基础服务来提供(IaaS基础即服务)。

2、Docker:打包部署环境的容器

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值