bigdata
believe2017slwx
这个作者很懒,什么都没留下…
展开
-
Flink集群搭建
下载根据hadoop版本下载对应的flink版本鉴于使用的是hadoop2.4.x版本,此处使用最新版本flink-1.4.2。下载链接:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.4.2/flink-1.4.2-src.tgzlinux环境准备主机artemis-02artemis-03artemis-04安装位置/home...原创 2018-04-11 15:35:15 · 1017 阅读 · 0 评论 -
Flink入门示例——wordCount(一)
说明(流处理)读取kafka流数据,每5s统计一次将处理结果写入Redis代码示例<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc...原创 2018-04-17 16:00:16 · 4809 阅读 · 0 评论 -
Flink入门示例——wordCount(二)
说明(批处理)读取HDFS数据将处理结果写入HDFS代码示例package com.testimport org.apache.flink.api.scala._import org.apache.flink.core.fs.FileSystem.WriteMode/** * 读取hdfs数据,把处理结果结果再写入HDFS */object WordCountBatch{ ...原创 2018-04-17 16:01:02 · 1432 阅读 · 0 评论 -
Flink技术架构
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。Flink将流处理和批处理统一起来,也就是说作为流处理看待时输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。Flink特点支持高吞吐、低延迟、高性能的流处理支持有状态计算的Exactly-once语义支持高度...原创 2018-04-17 17:45:38 · 2107 阅读 · 0 评论 -
Flink任务提交模式
local模式本地运行,不需要集群环境IDE开发时,local模式方便本地测试standalone需要搭建flink集群提交命令flink run -m artemis-02:6123 -c com.test.WordCount2 ./Flink.jar hdfs://artemis-02:9000/tmp/lvxw/tmp/logs/words hdfs://artemis-02:9000/t...原创 2018-04-12 13:15:27 · 8559 阅读 · 0 评论 -
YARN日志聚合相关参数配置
相关参数含义yarn.log-aggregation-enable参数说明:是否启用日志聚合功能,日志聚合开启后保存到HDFS上。默认值:falseyarn.log-aggregation.retain-seconds参数说明:聚合后的日志在HDFS上保存多长时间,单位为s。默认值:-1(不启用日志聚合),例如设置为86400,24小时yarn.log-aggregation.retain...原创 2018-04-12 14:42:55 · 1681 阅读 · 0 评论 -
pyspark配置和使用
window下pyspark环境搭建配置hadoop下载hadoop、winutils安装、配置环境变量用winutils覆盖掉hadoop-2.2.0\bin下所有内容配置spark下载spark安装(安装路径不能有空格)、配置环境变量配置pyspark拷贝 D:\spark-1.6.1\python\pyspark 至 D:\Program Files\Python\Python27\Lib\...原创 2018-05-04 16:14:49 · 3856 阅读 · 0 评论 -
Hive调优
系统调优避免执行MR设置hive.fetch.task.conversion = more 简单查询不走mr设置hive.fetch.task.conversion = none 所有查询都走MR本地模式执行Hive 在集群上查询时,默认是在集群上 N 台机器上运行, 需要多个机器进行协调运行,这 个方式很好地解决了大数据量的查询问题。但是当 Hive 查询处理的数据量比较小时...原创 2019-04-12 15:20:06 · 237 阅读 · 0 评论 -
Hive常用命令
hive命令行 hive --help --config hive配置文件路径--service hive 服务--auxpath 添加jar包(多个jar包用:分割) hive --service help Service List: beeline cli help hiveburninclient hiveserver2 hi...原创 2019-04-12 15:22:11 · 987 阅读 · 0 评论