大数据
文章平均质量分 91
guohan_solft
java、大数据开发工程师
展开
-
Kafka限流实测
通过kafka生产消费配额管理可以消峰,减少瞬时kafka的压力。生产配额可以配置每秒写入kafka的字节数,消费配额可以配置每秒消费字节数。配置粒度可以是全局的,也可以是用户级或者clientId级别。可以通过kafka自带的配置脚本进行配置,如下:bin/kafka-configs.sh \--zookeeper 192.168.1.227:2181 \--alter --add-config 'producer_byte_rate=10.原创 2021-04-27 15:52:24 · 3954 阅读 · 1 评论 -
centos6.8 安装elasticsearch6.5集群
安装es6.5文章目录1、官网下载Linux rpm包2、安装:rpm -ivh *.rpm3、配置4、创建jdk软链接,不让找不到javahome5、添加文件及权限给elastic search6、系统参数配置7、启动8、查看集群状态1、官网下载Linux rpm包2、安装:rpm -ivh *.rpm3、配置vim /ect/elasticsearch/elasticsearch.y...原创 2018-12-17 12:50:26 · 945 阅读 · 3 评论 -
mac安装kafka
文章目录一、安装二、启动zookeeper三、启动kafka四、创建topic五、消费topic六、生产一、安装brew install kafka期间自动安装zookeeper二、启动zookeeperzkServer start三、启动kafkabrew services start kafka查看进程guohan:~ guohan$ jps15840 KafkaUt...原创 2018-12-15 15:57:22 · 845 阅读 · 0 评论 -
HIVE总结
一、什么是hive将HDFS中的结构化数据映射成表,利用sql将查询分析任务转为MR程序执行二、hive特点集群可扩展、函数可以自定义、容错三、hive架构1、用户接口:CLI:shell命令JDBC/ODBC:java接口WebGUI:浏览器访问hive2、元数据存储:MySql/derby元数据包括表名、列、分区及其属性(是否为外部表)、表数据所在的目录3、运行sql组件...原创 2018-12-15 15:32:55 · 538 阅读 · 0 评论 -
hadoop 总结
一、什么是hadoop海量数据储存、计算平台二、什么是MapReduce分布式计算框架三、什么是HDFS分布式文件存储系统四、什么是YARN分布式计算资源调度平台五、HDFS组成namenode、datanode六、yarn组成resourceManager、nodeManger七、hadoopHAnameNode:active、standByzkfc:监听nameNo...原创 2018-12-15 15:19:07 · 640 阅读 · 0 评论 -
Python 爬虫实战 汽车某家(六) 论坛列表
功能:分页数据采集、断点续爬文件目录如下,其中temp文件夹用于存放断点文件代码如下:# 论坛帖子列表爬取#功能介绍# 1、论坛断点爬取# 2、分页断点续爬# 3、采新设计:当一轮数据全部爬取完毕后再次爬取,只要采集每日新增的帖子即可,不必全部爬取# 采集数据# 1、论坛版主数据:版主用户ID,保存到版主表# 2、论坛图标:更新到论坛表# 3、合并的车系:保存到论坛车系...原创 2018-11-21 18:43:39 · 1252 阅读 · 0 评论 -
redis最新版 redis-4.0.9 集群搭建
目录:一、集群架构1、主机架构2、主从架构二、安装redis1、下载源码2、编译3、添加环境变量4、修改配置文件三、安装ruby1、删除旧版本2、安装ruby依赖3、安装ruby2.53.1、下载最新版ruby,输入以下命令3.2、解压编译到指定文件夹3.3、配置环境变量3.4、查看ruby是否安装成功4、使用gem安装ruby的redis依赖包...原创 2018-04-20 13:42:36 · 4597 阅读 · 1 评论 -
Mac + idea2017.3 + ScalaSDK + Scala插件 安装
目录:一、下载idea1、未来软件园:http://www.orsoon.com/Mac/155938.html二、破解1、将0.0.0.0 account.jetbrains.com添加到/etc/hosts文件中2、获取注册码:打开网址获取注册码http://idea.lanyus.com,进入页面后点击获得注册码按钮,复制注册码三、激活idea1、打开idea,进...原创 2018-04-15 21:55:39 · 6285 阅读 · 0 评论 -
sqoop HDFS 导入 mysql
一、hdfs导入mysql注意:在mysql导入hive时可以自动创建表,而hdfs导入mysql时则不能在mysql中自动创建表,因此导入前准备工作,在mysql中建议需要导入的表!1、最简单的导入准备工作:在mysql中建表create table emp_import (id int,name varchar(45),age int);hdfs中/emp_db下存...原创 2018-02-17 11:09:05 · 989 阅读 · 0 评论 -
sqoop mysql 导 HDFS、HIVE
目录:一mysql 导入 hdfs1最简单的导入2指定mapTask个数3导入到hdfs上指定的目录二mysql 导入 hive1最简单的导入2导入到指定的hive库的指定的表中3先导入到指定的HDFS目录上再导入到指定的hive库的指定的表中三从mysql中导出一张表的部分数据指定where条件自定义sql语句四增量导入一、mysql 导入...原创 2018-02-14 19:20:51 · 335 阅读 · 0 评论 -
azkaban 工作流使用
目录:一 最简单的使用创建一个job执行打印输出打包成zip执行job1 打开Azkaban的web页面httpsmini184432 在页面上创建一个project3 上传压缩包simplezip4 执行5 查看执行日志二单个依赖工作流创建job1创建job2打包上传执行三 多个依赖工作流并行执行创建job1创建job2创建j...原创 2018-02-18 12:39:03 · 1444 阅读 · 0 评论 -
sqoop job 作业
目录:一最简单的job作业1创建一个job2验证作业是否创建成功3根据job名称查看某一个具体的job信息3执行job4删除job一、最简单的job作业1、创建一个job将mysql中为emp表的数据导入到hdfs上 注意:在创建job时,命令”– import” 中间有个空格,切勿忽视,否则报错!sqoop job \--create ...原创 2018-02-17 15:04:45 · 2050 阅读 · 0 评论 -
hadoop-2.6.4 配置 启动 关闭
hadoop-2.6.4 配置、分布启动、分步关闭、一键启动、一键关闭原创 2017-12-02 22:01:39 · 7381 阅读 · 0 评论