北京弘易信泰 网络数据抓取技术实践分享

弘易信泰,作为大数据产品厂商,长期关注业界数据抓取技术的变化,当前,互联网数据以前所未有的态势迅猛增长,对于信息化技术而言,海量数据的抓取技术尤为重要,在数据迅速发展的大背景下,中国政府与企业类型的信息化用户,对于发现并获得大数据应用价值的需求也在迅速增长,在此,我们根据用户反馈结合对于技术发展的认知,分享数据抓取技术的相关实践。

  • 云环境与操作系统

云环境是指能够从动态虚拟化的资源池中向用户或者各种应用系统按需提供计算能力、存储能力或者虚拟机服务等的互联网或者大数据环境。CentOS操作系统在可靠性、兼容性、资源耗用上具有先天优势。FusionSphere可以提供强大的虚拟化功能和资源池管理,丰富的云基础服务组件和工具,开放的API接口等。

  • Hadoop计算框架

离线计算部分采用Hadoop计算框架,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。HDFS提供文件存储,YARN提供资源管理。HDFS是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议来操作。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用Master/Slave架构,一个Master,若干Slave。
yarn的特点:速度超快,Yarn 缓存了每个下载过的包,所以再次使用时无需重复下载。 同时利用并行下载以最大化资源利用率,因此安装速度更快;非常安全,在执行代码之前,Yarn 会通过算法校验每个安装包的完整性;可靠,使用详细、简洁的锁文件格式和明确的安装算法,Yarn 能够保证在不同系统上无差异的工作。
Spark具有运行速度快、容易使用、通用性强、运行模式多样的特点。Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件。Spark Core包含Spark的基本功能,如内存计算、任务调度、部署模式、故障恢复、存储管理。Spark SQL允许开发人员直接处理RDD,同时也可查询Hive、HBase等外部数据源。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive的特点主要包括:可扩展,Hive可以自由的扩展集群的规模,一般情况下不需要重启服务;延展性,Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数;容错良好的容错性,节点出现问题SQL仍可完成执行。

  • Zookeeper

zookeeper是一个分布式服务框架它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
SolrCloud(Solr 云)是Solr提供的分布式搜索方案,当需要大规模容错、分布式索引和检索能力时使用。

SolrCloud(Solr 云)是Solr提供的分布式搜索方案,当需要大规模容错、分布式索引和检索能力时使用。
当一个系统的索引量很大、搜索请求并发很高时需要使用SolrCloud来满足这些需求。
SolrCloud是基于Solr和Zookeeper的分布式搜索方案,主要思想是利用Zookeeper作为集群的配置信息中心。

  • Hbase

Hbase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。

  • Region

如果没有预建分区的话,那么随着region中条数的增加,region会进行分裂,这将增加I/O开销,所以解决方法就是根据RowKey设计来进行预建分区,减少region的动态分裂。

  • HFile

HFile是数据底层存储文件,在每个memstore进行刷新时会生成一个HFile,当HFile增加到一定程度时,会将属于一个region的HFile进行合并,这个步骤会带来开销但不可避免,但是合并后HFile大小如果大于设定的值,那么HFile会重新分裂。为了减少这样的无谓的I/O开销,建议估计项目数据量大小,给HFile设定一个合适的值。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值