![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 59
Jatham_C
个人博客 https://blog。jathamcloud。top
展开
-
elasticsearch外网访问设置+密码登录
检查服务器是否开放端口修改文件elasticsearch.yml博主报错ERROR: [1] bootstrap checks failed[1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]接下来照着参考文档改就可以参考文档https://www.cnblogs.com/binbinyouni/p/8360926.html结果博主公众号求关注原创 2021-11-17 15:37:13 · 1622 阅读 · 0 评论 -
sparksql+hive
hive和spark版本对应hive环境对应spark版本配置连接sparksql直接执行sql文件的命令[root@iZuf692x556cjpozgoe31bZ spark-2.4.5]# ./bin/spark-sql --conf spark.sql.warehouse.dir=hdfs://localhost:9000/root/hive/warehouse spark-sql ...原创 2020-02-18 15:42:06 · 207 阅读 · 0 评论 -
springboot jdbc方式连接hive
准备工作查看${HIVE_HOME}/conf/hive-site.xml <property> <name>hive.server2.thrift.bind.host</name> <value>master</value> <description>Bind host on which to run the HiveServer2 Thrift service.</description>原创 2020-12-19 17:30:19 · 654 阅读 · 1 评论 -
报错Permission denied: user=root, access=EXECUTE, inode=“/tmp/hadoop-root“解决办法
方法1修改文件权限给roothadoop fs -chown -R root:root /tmp方法2开放文件权限给所有人hadoop fs -chmod -r 777 /tmp原创 2020-12-11 10:05:57 · 4034 阅读 · 0 评论 -
spark-sql常见问题网站记录
https://www.cnblogs.com/arachis/p/Spark_Exception.html添加链接描述原创 2020-12-08 11:24:53 · 85 阅读 · 0 评论 -
flinksql客户端消费 kafka
建议整合hive,这样创建的表可以保存参考个人博客:https://blog.jathamcloud.top/blog/8添加jar依赖仓库地址https://mvnrepository.com/artifact/org.apache.flink/flink-clientshttps://mvnrepository.com/artifact/org.apache.flink/flink-streaming-javahttps://mvnrepository.com/artifact/or原创 2020-11-11 11:20:10 · 1447 阅读 · 0 评论 -
kafka+zookeeper集群部署
zookeeper集群部署上一篇博客kafka集群部署配置下载kafka官网http://kafka.apache.org/wget https://archive.apache.org/dist/kafka/2.4.0/kafka_2.11-2.4.0.tgz修改配置文件vi ${kafka_home}/config/server.properties (1)、配置 broker 的ID,每一台服务器的地址依次不同,其他两台为2,3broker.id=1(2)、打开监听端原创 2020-11-05 14:40:19 · 227 阅读 · 0 评论 -
centos7 部署python2
下载python官网 https://www.python.org/downloads/release/python-2718/wget https://www.python.org/ftp/python/2.7.18/Python-2.7.18.tgztar -zxvf Python-2.7.18.tgz -C /app/python2cd /app/python2./configure prefix=/usr/local/python2makemake install#测试pyth原创 2020-11-02 18:06:32 · 111 阅读 · 0 评论 -
zookeeper集群安装部署
官网下载官网wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.2/apache-zookeeper-3.6.2-bin.tar.gz配置修改${zookeeperhome}/conf/zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial# synchr原创 2020-10-30 18:01:43 · 86 阅读 · 0 评论 -
hue整合sparksql和presto
常见问题参考文档整合spark先开启${spark_home}/sbin/start-thriftserver.sh [spark]# Host of the Spark Thrift Server# https://spark.apache.org/docs/latest/sql-distributed-sql-engine.htmlsql_server_host=localhost# Port of the Spark Thrift Serversql_server_port=1原创 2020-10-29 15:18:47 · 1773 阅读 · 0 评论 -
centos7安装部署postgresql96-server
官网查看安装版本查看自己系统版本uname -ahttps://www.postgresql.org/download/linux/redhat/详细步骤yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpmyum install -y postgresql96-server### 可能遇到问题 Last me原创 2020-10-28 18:14:23 · 710 阅读 · 0 评论 -
hue+docker 安装部署
docker安装部署官网文档若本来有docker则先卸载再安装$ sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \原创 2020-10-27 14:35:29 · 3022 阅读 · 1 评论 -
大数据各工具传参格式
hiveselect * from table where dt = ${hivevar:dt}#!/bin/bashyesterday=`date -d -1day +%Y%m%d`if [ ! -n "$1" ] then echo "没有传入参数" else yesterday="$1" echo "yesterday=$yesterday"fiset hive.exec.dynamic.partition=true;set hive.exec.dynamic.原创 2020-09-18 21:11:40 · 265 阅读 · 0 评论 -
datax修复\N脏数据
下载datax源码修改datax源码plugin-unstructured-storage-util下的UnstructuredStorageReaderUtil.class加上一个判断,因为在hdfs中,null值存储的是 \N ,所以需要把它转换成 null存储到Mysql中if (columnValue.equals(nullFormat) || columnValue.equals("\\N")) { LOG.info("********** string的 原始值 为 "+column原创 2020-09-18 21:04:53 · 3067 阅读 · 0 评论 -
datax导入hive动态分区
配置hive支持动态分区 <property> <name>hive.exec.dynamic.partition</name> <value>true</value> <description>Whether or not to allow dynamic partitions in DML/DDL.</description> </property> <propert原创 2020-09-06 20:31:36 · 8229 阅读 · 9 评论 -
hdfs配置公网远程连接
修改/etc/hosts文件xx.xxx.xx.xx 公网Ip master172.17.14.210 master修改core-site配置文件<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> &l原创 2020-09-06 20:28:07 · 1171 阅读 · 0 评论 -
springboot+flinksql+kafka+hive记录文档
flink-sql 1.10 kafka 实时采集kafka中的数据写入到hbaseFlinkSQL使用DDL语句创建kafka源表成功实例https://blog.csdn.net/weixin_43806056/article/details/91975469Flink + kafka + FlinkSql 计算 10秒滚动窗口内 用户点击次数,之后自定义 sink To mysqlFlink 1.10 SQL 读写Kafkaflink_sql_client 1.10 与 hive集成 读取原创 2020-09-06 10:46:18 · 1102 阅读 · 0 评论 -
hive2.3.7 jdbc连接的方式
准备工作修改hive-site<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>javax.jdo.option.ConnectionURL</nam原创 2020-08-09 10:59:43 · 919 阅读 · 0 评论 -
zookeeper+kafka 记录文档
datanode启动错误zookeeper分布式集群安装kafka原创 2020-08-03 11:50:55 · 62 阅读 · 0 评论 -
hadoop+hbase+hive+spark(分布式部署)
大数据平台搭建版本这个版本真的关键hadoop:2.10.0参考连接1参考连接2hadoop配置文件1.core-site<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> &原创 2020-05-28 22:20:54 · 1291 阅读 · 0 评论 -
IDEA本地调试azkaban
准备工作下载azkaban源码中央maven太慢,修改为阿里云的仓库,修改build.gradle文件buildscript { repositories { maven { url 'https://maven.aliyun.com/repository/gradle-plugin' } }allprojects { apply plugin: 'jacoco' repositories { maven { url 'https:原创 2020-05-21 19:04:00 · 1198 阅读 · 0 评论