关闭

scrapy爬虫环境搭建

概述 文件下载 系统环境搭建和配置 参考 概述 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy-splash:第三方中间件来提供JS渲染服务,解决由js动态生成的HTML页面问题。 文件下载 centos7下载(最新的docker服务依赖centos7),下载地址:http://www.ce...
阅读(114) 评论(0)

kafka环境搭建及demo

概述 文件下载 系统环境搭建和配置 kafka demo 参考概述kafka是一个分布式的消息缓存系统 kafka集群中的服务器都叫做broker kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接 kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消...
阅读(112) 评论(0)

storm环境搭建及demo

概述 文件下载 系统环境搭建和配置 storm demo Q&A 参考概述 Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作“实时的hadoop”。Storm有很多使用场景:如实时分析,在线机器学习,持续计算, 分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理 数以百万计...
阅读(71) 评论(0)

我的Hadoop安装——使用Cloudera部署,管理Hadoop集群(离线安装CDH5.7.0)

- 概述 - 文件下载 - 系统环境搭建 - Cloudera Manager安装与集群配置 - 日志查看 - Q&A - 参考 概述 CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可...
阅读(520) 评论(0)
    个人资料
    • 访问:76592次
    • 积分:1253
    • 等级:
    • 排名:千里之外
    • 原创:48篇
    • 转载:13篇
    • 译文:0篇
    • 评论:19条
    最新评论