大数据
溪水流长
奇迹无时不刻都在发生
展开
-
使用xsync脚本分发
为什么使用xsync脚本来分发文件因为操作简单,只需要执行脚本在后面加上需要分发的文件就行了然后底层不一致,scp使用的是安全拷贝,而xsync使用的是增量拷贝由于底层不一致,xsync比scp快上许多使用脚本来分发文件之前不同节点之间的免密登录安排上脚本实现#!/bin/bash#1 输入参数个数,如果没有参数就会退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 需要分发的文件名称p1=$1fname=`原创 2021-11-10 18:28:18 · 3937 阅读 · 1 评论 -
centerOS7卸载MySQL
centerOS7卸载MySQL使用rpm -qa|grep -i mysql命令来搜索系统中安装的MySQLrpm -qa|grep -i mysql如果出现了如下图所示说明系统中安装了MySQL![在这里插入图片描述](https://img-blog.csdnimg.cn/2021071921131723.png)123123...原创 2021-07-19 21:27:12 · 265 阅读 · 0 评论 -
YumRepo Error: All mirror URLs are not using ftp, http[s] or file.报错解决
YumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/错误:Cannot find a valid baseurl for repo: base已经一年多没有使用centerOS6.*版本下载源文件了,就在今天需要下载的时候,显示错误,经过搜索,原来是官方在2020年12月2日已经取消了对centerOS6的所有更新,并且下架了包括官方的所有原创 2021-04-13 15:32:07 · 2767 阅读 · 3 评论 -
新手安装Elasticsearch单节点或者集群遇到的一些问题
使用root用户打开./elasticsearch报错这是系统为了安全考虑,由于es可以独立接受用户输入的脚本,所以需要单独建立一个用户来运行esERROR: bootstrap checks failed{max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]max number of threads [1024] for user [elk] likely原创 2021-04-01 18:52:26 · 236 阅读 · 0 评论 -
IDEA启动Flink离线项目报ERROR:scala.collect.immutable/java.lang.NoSuchMethodError解决办法
IDEA启动Flink离线项目报ERROR:scala.collect.immutable/java.lang.NoSuchMethodError解决办法原因pom文件的scala版本或者flink版本和系统不一致,我使用的scala版本是2.13不支持flink,换成2.11就行了,然后修改idea的scala配置将符合pom文件的scala版本选中就行了...原创 2020-07-09 11:54:26 · 342 阅读 · 0 评论 -
大数据挖掘型标签RFM/RFE/PSM
挖掘标签KMeans监督学习 对目标有期望值(目标值)无监督学习 对目标没有对应的期望值(目标值)半监督学习 对目标有部分的期望值(目标值)强化学习 目标不断与外界交互获得反馈,决定自身的行为 ps 阿尔法狗用户价值模型-RFMXXX网店,6-18期间得活动到底发给谁????例如有50w历史用户,如何对用户分群???使用RFM模型对用户分群RFM是Rencency(最近一次消费)---- 最后一次得消费得时间Frequency(消费频率) ---- 消费次数(半年内/一年内/所原创 2020-07-02 21:02:40 · 1339 阅读 · 0 评论 -
Hbase安装启动
第一步:下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压将我们的压缩包上传到node01服务器的/ex...原创 2019-12-12 20:03:43 · 390 阅读 · 0 评论 -
Zookeeper之本地模式部署(纯文字,图片党慎入)
1. 安装准备(1)安装jdk(2)通过filezilla工具拷贝zookeeper到到linux系统下(3)修改tar包权限chmod u+x zookeeper-3.4.10.tar.gz(4)解压到指定目录[atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/2.修改配置...原创 2019-12-08 21:53:22 · 116 阅读 · 0 评论 -
Ki No ''Azkaban'' Da
solo-server模式部署节点规划host角色node-1Web Server和Executor Server同一进程ps:此教程适用azkaban编译后部署1解压配置mkdir /export/servers/azkabantar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz –C /export/ser...原创 2019-12-07 17:13:29 · 1326 阅读 · 0 评论 -
大数据之Flume组件的使用
当前Flume有两个版本。Flume 0.9X版本的统称Flume OG(original generation),Flume1.X版本的统称Flume NG(next generation)。由于Flume NG经过核心组件、核心配置以及代码架构重构,与Flume OG有很大不同,使用时请注意区分。改动的另一原因是将Flume纳入 apache 旗下,Cloudera Flume 改名为 Apache Flume。原创 2019-12-05 10:44:03 · 1438 阅读 · 0 评论 -
MapReduce之WordCount字数统计
第一次WordCount小游戏在idea客户端上面进行WordCount统计1:创建mapper类继承mapper(选hadoop类型)public class wordcountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {//LongWritable(表示mapper输入数据的key每一行数据的编号...原创 2019-11-12 11:03:04 · 2224 阅读 · 0 评论 -
Hadoop之HDFS文件读写流程(超详细!!!!)
HDFS文件写入过程:详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;4...原创 2019-11-04 16:55:44 · 2934 阅读 · 0 评论