![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
系统平台搭建
文章平均质量分 90
diggerTT
稳扎稳打,步步为营
展开
-
平台搭建---Kafka使用---Kafka监控工具KafkaOffsetMonitor配置及使用
来源 KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具,其配置和使用特别的方便。源项目Github地址为:https://github.com/quantifind/KafkaOffsetMonitor。 最简单的使用方式是从Github上下载一个最新的KafkaOffsetMonitor-assembly-0.2.1.jar转载 2018-06-27 10:39:41 · 1292 阅读 · 0 评论 -
平台搭建---电脑系统---ubuntu16.04下hadoop-2.7.4搭建
一、准备好ubuntu系统方法参照我之前的《windows系统下安装ubuntu双系统》二、准备好java环境ubuntu16.04系统没有安装java JDK,直接官网下载,选择Linux x64版本;解压至目标位置,我的一些软件基本安装至/usr目录。并设置好环境变量。原创 2019-05-09 19:25:07 · 2731 阅读 · 0 评论 -
平台搭建---Kafka使用---Kafka客户端是如何找到 leader 分区的
来源:2017-07-28 21:07:05 在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候,必须先找到对应分区的Leader及其所在的Broker地址,这样才可以进行后续的...转载 2018-06-28 14:17:27 · 2900 阅读 · 0 评论 -
平台搭建---kafka使用---基本使用
主要是记录默认端口 应用名称 识别码 应用类型 协议和端口 描述 pop3邮件 5 普通应用 TCP:110 pop3邮件 ftp-data 20 ftp数据端口 ftp 21 文件传输协议(FTP)端口;有时也被文件服务协议(FSP)使用 ssh 22 安全S...原创 2018-06-28 14:34:45 · 2988 阅读 · 0 评论 -
平台搭建---大数据框架---RPC 框架
主成分分析原理scikit-learn 中PCA类介绍来源 官网链接 在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA,我们下面主要也会讲解基于这个类的使用的方法。 除了PCA类以外,最常用的PCA相关类还有KernelPCA类。它主要用于非线性数据的降维,需要用到原创 2018-06-08 20:45:55 · 1112 阅读 · 0 评论 -
数据挖掘工具---流式处理---storm 教程
来源:当storm遇上pythonstorm是什么他的官方文档是这样介绍的Storm is a distributed realtime computation system.关键词:分布式、实时、计算你什么时候需要storm当你有海量数据需要进行实时处理的时候,在这种场景下你往往需要利用到多台机器,而且让你关注的某一类数据按一定的规则路由到确切的节点,从而实现对信息流(往往需是...原创 2018-10-25 11:11:35 · 1985 阅读 · 0 评论 -
平台搭建---hadoop生态的用户权限控制问题
在程序中指定Spark和Hadoop的用户SparkSQL利用HDFS的权限控制表的读权限大数据安全:Ranger与Sentry使用区别Apache Ranger:统一授权管理框Apache Ranger剖析:Hadoop生态圈的安全管家...原创 2018-12-01 17:09:39 · 648 阅读 · 0 评论 -
平台搭建---Kafka使用---Kafka重复消费和丢失数据
来源1、Kafka保证数据不丢失的原理1.1、kafka消息的位置用好Kafka,维护其消息偏移量对于避免消息的重复消费与遗漏消费,确保消息的Exactly-once是至关重要的。 kafka的消息所在的位置Topic、Partitions、Offsets三个因素决定。 Kafka消费者消费的消息位置还与consumer的group.id有关。 consumerOffse原创 2018-06-27 10:30:53 · 39254 阅读 · 4 评论 -
平台搭建---大数据框架---分布式搜索引擎与面向文档数据库(lucene、elasticsearch、Nutch、Solr)
Lucene学习思维导图 分词流程图 分词器的类型 分词过滤器类型 分词结果输出原创 2018-06-07 14:28:47 · 677 阅读 · 0 评论 -
理工学---数据基础---大数据---Spark Submit提交应用程序及yarn
本部分来源,也可以到spark官网查看英文版。 使用spark-submit时,应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class --master --jars Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序,它通过统一接口使用Spark所支持的所有集群管理器,因此无需特殊配置每一个原创 2018-01-19 09:59:03 · 24400 阅读 · 1 评论 -
理工学---系统平台---数据平台---平台搭建---spark生态版本问题
pyspark采用python3开发python版本3.5支持pyspark python3.6目前还不支持 做法简单,只需要在bin/pyspark中增加export PYSPARK_PYTHON=python3再次打开bin/pyspark即配置完成pyspark采用python3. 如果想使用ipython,则增加下面两行到bin/pyspark中export PYSPARK_PYTHO原创 2018-01-31 09:24:14 · 1148 阅读 · 1 评论 -
理工学---系统平台---数据平台---平台搭建---spark平台搭建
1、准备好相关环境主要是在集群电脑上安装好java JDK,设置好电脑主机名称,配置Ip地址,利用ssh进行电脑间的连接,并测试好连接可靠。搭建hadoop系统(sprak本身不依赖hadoop,这里我想把hadoop用起来),同时可以预装python、pycharm这些可能乃至的编程语言和开发环境。如何安装可以查看我的其他博客。2、安装spark至官网下载相应版本的spark安装文件。原创 2017-11-18 11:36:49 · 1584 阅读 · 1 评论 -
平台搭建---Hive使用介绍
文章来源1、Hive简介Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用戶查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu转载 2018-01-19 09:14:19 · 6105 阅读 · 0 评论 -
平台搭建---大数据框架---大数据组件的安装及部署
zookeeper 分布式集群的安装与配置来源 Zookeeper 集群是分布式集群的协调者,也就是任意的分布式集群都能配置Zookeeper集群作为管理者、协调者,Zookeeper 集群在配置时一般采用的是奇数个节点配置的策略。原创 2018-04-01 23:43:23 · 7262 阅读 · 0 评论 -
平台搭建---不同应用端口使用情况
1、kafka的安装与测试参考相关部分原创 2018-05-16 10:45:06 · 630 阅读 · 0 评论