大数据
文章平均质量分 74
罗亚方舟
路是自己走出来的!
展开
-
Hadoop/Yarn和kafka-logs 日志设置
Hadoop/Yarn的日志清理Hadoop/Yarn的本地日志(非Yarn Container生成的日志)Yarn的Container生成的日志1. Hadoop/Yarn本地日志的清理Hadoop/Yarn使用log4j进行日志输出,所以对于它们本地日志的清理,最好的方式是通过修改log4j的配置配置文件,以rolling的方式写入日志。Hadoop/Yarn的log4j配置文件一般会放置于/etc/hadoop或/etc/hadoop/conf下,确切的位置与你使用的Had...原创 2021-07-29 11:19:48 · 595 阅读 · 0 评论 -
IDEA中引入Scala
需要按照idea2019以上版本,安装好IDE后,File->Setting->Plugins->搜索scala 点击install详细操作间如下图示:本地安装scala-2.11.8.msi 后,在再IDE中设置Scalajar包,File->Project Structure->Global libraries->+, 然后添加Scala SDK。如下图所示添加完成后,对应的spark下面的Scala代码就能正常的显示和运行起来...原创 2021-07-28 09:36:59 · 2314 阅读 · 0 评论 -
Ambari启动hive报错
第一次错误:Traceback (most recent call last): File "/var/lib/ambari-agent/cache/common-services/HIVE/0.12.0.2.0/package/scripts/hive_metastore.py", line 203, in <module> HiveMetastore().execute() File "/usr/lib/python2.6/site-packages/resource_...转载 2021-07-27 09:00:51 · 519 阅读 · 0 评论 -
EfficientNet号称是最好的分类网络
Model Scaling(模型扩展)一直以来都是提高卷积神经网络效果的重要方法。比如说ResNet可以增加层数从ResNet18扩展到ResNet200,GPipe通过对基线网络的四倍扩展在ImageNet上可以达到84.3%的准确率。本节要介绍的最新网络结构——EfficientNet,就是一种标准化模型扩展的结果。通过下面这张图,我们可以直观的感受一下EfficientNet B0-B7在ImageNet上的效果:对于ImageNet历史上各种网络,EfficientNet可以算是在效果上实现了碾压.转载 2021-05-17 17:56:36 · 2016 阅读 · 1 评论 -
Tensorflow在Windows10下面安装
一:安装Anaconda和Tensorflow1:从官方网站下载Anacondahttps://www.anaconda.com/download/建议不要直接安装最新版本,可以下载历史版本,我这边选择‘Anaconda3-2020.07-Windows-x86_64.exe’2:进行软件安装(这个和普通的没什么特别区别)3:安装完成Anaconda之后进行环境变量的测试进入到windows中的命令模式:(1)检测anaconda环境是否安装成功:conda...原创 2021-05-14 11:09:18 · 267 阅读 · 6 评论 -
Flink 与 Storm的对比
1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试:https://tech.meituan.com/test-of-storms-reliability.html),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍.转载 2021-04-22 10:31:29 · 4288 阅读 · 1 评论 -
kettle8.2.0 下面mysql 导入Hive3.1.0
mysql导入hive3.1.0中花了两天时间,弄的有点泪崩。主要问题最新hive模式有些变化,另外hive本身直接导入非常低效,因此只能采用mysql导入hdfs,然后再加载到hive中。先点击new transformation 生成一个ktr文件。1 先创建表输入和Hadoop file output,详细如下:2 配置Hadoop file output,详细如下图点击测试,进行查看配置是否正确不正确的情况:1:core-site.xml,mapred-.原创 2021-04-15 16:52:45 · 334 阅读 · 0 评论 -
kettle8.2.0 下面mysql 导入hbase
因为业务需要将数据从SQL(mysql,SQLserver)抽取到habse集群中。大数据组件如下:mysql版本[root@localhost ~]# mysql -Vmysql Ver 8.0.17 for linux-glibc2.12 on x86_64 (MySQL Community Server - GPL)[root@localhost ~]#准备工作:下载 pdi-ce-8.2.0.0-342.zip 数据库驱动jar(pdi-ce-8.2.0.0-.原创 2021-04-15 16:40:57 · 442 阅读 · 0 评论 -
基于linux环境下 kettle 8.2.0的应用
kettle 可以在Windows平台或者linux平台运行,我这边考虑做集群部署模式,所以采用linux环境,详细的部署(https://blog.csdn.net/weixin_42575806/article/details/113542806)和跨平台操作(https://blog.csdn.net/weixin_42575806/article/details/113546635)见之前的博客 记录。本文主要采用基于linux集群下面的kettle使用1. 创建Transformati原创 2021-04-06 17:44:01 · 289 阅读 · 0 评论 -
ambari-server restart ERROR: Could not create . Reason: [Errno 2] No such file or directory: ‘‘
ambari 集群异常断电导致启动失败。试了好几次ambari-server start命令,都不好使;重启服务器几次,也仍然是不行。失败错误如下:[root@master ~]# ambari-server restartUsing python /usr/bin/pythonRestarting ambari-serverERROR: Could not create . Reason: [Errno 2] No such file or directory: ''Traceback原创 2021-03-17 10:04:40 · 700 阅读 · 0 评论 -
基于ambari大数据平台下设置hbase自动删除
大数据存储hbase中,存储有一定的时效性,可以选择性删除过期的数据来减少服务器存储压力。1.设置压缩删除时间(默认是7天,但是为了更有效的删除数据,一般建议每天清理一次,如果时效性非常低 可以设置为小时,但是这样会增加服务器性能消耗)2. 打开UI管理界面,查看Hbase的存储大小和数据库表3.进入hbase shell 设置TTL保留数据时间(我这边设置保留最近7天数据)desc 'Gps'disable 'Gps'alter 'Gps',{NAME=>'GpsDa.原创 2021-03-04 17:18:05 · 331 阅读 · 2 评论 -
win10 下面 kettle 图形化
kettle安装详细请参照:https://blog.csdn.net/weixin_42575806/article/details/113542806安装图形化界面yum groupinstall "X Window System"在 data-integration文件夹下,执行./kitchen.sh 如果出现帮助信息表示部署成功, 我这里出现了如下警告直接yum install webkitgtk安装,会报错提示:No package webkitgtk available.原创 2021-02-02 11:43:44 · 224 阅读 · 0 评论 -
centos7下部署kettle集群
目前涉及到多数据源的情况,大数据集群需要把相关的数据按照一定的需求进行抽取,因此采用kettle进行数据拉取使用。首先安装三台centos7 ,分别配置好静态ip,ssh免密码登录,关闭防火墙,jdk1.8安装,ntp时间同步 请参照https://blog.csdn.net/weixin_42575806/article/details/110185977具体步骤这里不多说了!我这里已经安装好了,我是在虚拟机里面装了三个节点我这里通过xshell远程工具来连接的先把主机名和..原创 2021-02-02 11:29:56 · 528 阅读 · 0 评论 -
hive启动一直失败 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver
好不容把大数据集群装好了,但是hive始终启动不了。第一步先认真的检查一下mysql中创建的hive数据和用户名create database hive default charset utf8 collate utf8_general_ci; CREATE USER 'hive'@'%' IDENTIFIED BY 'Hive-123';GRANT ALL PRIVILEGES ON hive.* TO 'hive'@'%';FLUSH PRIVILEGES;这个一定要增加,要不然本地原创 2020-12-18 15:50:54 · 24738 阅读 · 3 评论 -
Timeline Service V2.0 Reader 启动不了
解决方法是:将yarn配置文件中的is_hbase_system_service_launch和use_external_hbase勾选最终成功启动转载 2020-12-18 14:58:45 · 437 阅读 · 0 评论 -
centos7.6 安装Ambari-2.7.1.0搭建HDP-3.1.0
一、环境准备1、centos7以上系统2、mysql版本:mysql-5.7.213、jdk版本:java-1.8.0-openjdk-1.8.0.161-0.b14.el7_4.x86_644、Ambari版本:Ambari-2.7.1.05、HDP版本:HDP-3.1.06、保证所有节点时间同步二、关闭服务器防火墙并设置开机不启动(所有服务器)指令: systemctl disable firewalldservice firewalld stop三、分..原创 2020-12-18 09:48:31 · 791 阅读 · 2 评论 -
HBase Shell命令大全 转载
https://blog.csdn.net/vbirdbest/article/details/88236575一:简介HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Z.转载 2020-11-30 09:58:23 · 199 阅读 · 0 评论 -
CentOS7.6下安装Ambari2.6.2.2
一、准备工作1.1、准备三台CentOS1.2、配置静态IP、DNSvi /etc/sysconfig/network-scripts/ficfg-ens33IPADDR为 配置的ipNETMASK 子网掩码GATEWAY 网关配置保存后重启虚拟网络service network restart1.3、配置Hostnamevi /etc/hostname#将第一行替换成新名字master配置hosts文件vi /etc/hosts1..原创 2020-11-26 14:31:25 · 684 阅读 · 0 评论