大数据
文章平均质量分 60
千里之行起于足下
Beginning is half of success
展开
-
centos常用命令
1)切换目录命令cdcd app 切换到app目录cd .. 切换到上一层目录cd / 切换到系统根目录cd ~ 切换到用户主目录cd - 切换到上一个所在目录2)列出文件列表ls ll3)创建目录和移除目录:mkdir rmdirmkdir app 在当前目录下创建app目录mkdir –p app2/test 级联创建aap2以及test目rmdir app 删除空目录4)浏览文件【cat、more、less、tail】cat yum.con.原创 2022-01-07 10:46:49 · 2766 阅读 · 0 评论 -
Flume抽取Kafka数据到HDFS
1)数据抽取在/export/servers/apache-flume-1.8.0-bin/conf下创建kafka-hdfs.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSourcea原创 2021-12-14 10:10:10 · 1733 阅读 · 0 评论 -
Flume 简单案例
1)采集目录到 HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现, 就需要把文件采集到 HDFS 中去 根据需求,首先定义以下 3 大要素 采集源,即 source——监控文件目录 : spooldir 下沉目标,即 sink——HDFS 文件系统 : hdfs sink source 和 sink 之间的传递通道——channel,可用 file channel 也可以用内存 channel 配置文件编写:a1.sources.r1.type = spooldir原创 2021-12-14 10:08:31 · 633 阅读 · 0 评论 -
Flume入门案例
1)创建netcat-logger.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444# Describe the sinka1.sin原创 2021-12-14 10:04:32 · 742 阅读 · 0 评论 -
Flume安装
安装于node01节点上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gztar -zxvf apache-flume-1.8.0-bin.tar.gz -C ../servers/然后进入 flume 的目录,修改 conf 下的 flume-env.sh,在里面配置 JAVA_HOMEmv flume-env.sh.template flume-env.shwhich javachmod a+x flume-env原创 2021-12-14 10:03:42 · 651 阅读 · 0 评论 -
Hive 的基本操作
1)数据库操作创建数据库create database if not exists myhive;use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>创建数据库并指定位置create database myhive2 loca原创 2021-12-14 09:58:58 · 405 阅读 · 0 评论 -
Hive 的交互方式
1)第一种交互方式 bin/hivecd /export/servers/apache-hive-2.1.1-bin/bin/hive创建一个数据库create database if not exists mytest;2)第二种交互方式:使用sql语句或者sql脚本进行交互不进入hive的客户端直接执行hive的hql语句cd /export/servers/apache-hive-2.1.1-binbin/hive -e "create database if not原创 2021-12-14 09:57:52 · 1450 阅读 · 0 评论 -
Hive 的安装
hive的版本:2.1.1 下载地址为: http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz下载之后,上传到第三台机器的/export/softwares目录下面去1)第一步:上传并解压安装包将我们的hive的安装包上传到第三台服务器的/export/softwares路径下,然后进行解压cd /export/softwares/tar -zxvf apache-hive-2.1.1-bi原创 2021-12-14 09:56:40 · 1659 阅读 · 0 评论 -
Mosquitto安装
mqtt,breker,服务端安装原创 2021-12-13 20:25:07 · 5249 阅读 · 0 评论 -
centos常用命令
1)切换目录命令cdcd app 切换到app目录cd .. 切换到上一层目录cd / 切换到系统根目录cd ~ 切换到用户主目录cd - 切换到上一个所在目录2)列出文件列表ls ll3)创建目录和移除目录:mkdir rmdirmkdir app 在当前目录下创建app目录mkdir –p app2/test 级联创建aap2以及test目rmdir app 删除空目录4)浏览文件【cat、more、less、tail】cat yum.con.原创 2021-12-13 09:27:04 · 1407 阅读 · 0 评论 -
Hadoop安装
1)第一步:上传apache hadoop包并解压cd /export/softwarestar -zxvf hadoop-2.7.5.tar.gz -C ../servers/2)第二步:修改配置文件修改core-site.xml第一台机器执行以下命令cd /export/servers/hadoop-2.7.5/etc/hadoopvim core-site.xml修改hdfs-site.xml第一台机器执行以下命令cd /export/servers原创 2021-12-12 20:41:32 · 347 阅读 · 0 评论 -
Zookeeper JavaAPI操作
import org.apache.curator.RetryPolicy;import org.apache.curator.framework.CuratorFramework;import org.apache.curator.framework.CuratorFrameworkFactory;import org.apache.curator.framework.recipes.cache.ChildData;import org.apache.curator.framework.recip原创 2021-12-12 20:40:42 · 2697 阅读 · 0 评论 -
zkui可视化工具
下载:GitHub - DeemOpen/zkui: A UI dashboard that allows CRUD operations on Zookeeper.maven install安装修改配置config.cfg访问:http://localhost:9090# 角色为ADMINusername: adminpassword: manager# 角色为USERusername: appconfigpassword: appconfig...原创 2021-12-12 20:39:26 · 446 阅读 · 0 评论 -
Zookeeper集群安装
1)第一步:下载zookeeeper的压缩包,下载网址如下Index of /dist/zookeeper使用的zk版本为3.4.92)第二步:解压cd /export/softwaretar -zxvf zookeeper-3.4.9.tar.gz -C ../servers/ 3)第三步:修改配置文件cd /export/servers/zookeeper-3.4.9/conf/cp zoo_sample.cfg zoo.cfgmkdir -p /export/serv原创 2021-12-10 09:30:44 · 391 阅读 · 0 评论 -
kafka-eagle监控工具
1)kafka-eagle概述为了简化开发者和服务工程师维护Kafka集群的工作有一个监控管理工具,叫做 Kafka-eagle。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。2)环境要求需要安装jdk,启动zk以及kafka的服务3)下载Download - EFAK。下载安装包kafka-eagle-bin-1.3.2.tar.gz4)解压直接将kafk原创 2021-12-10 09:16:57 · 1255 阅读 · 0 评论 -
Kafka集群操作
1)创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:21812)查看topic bin/kafka-topics.sh --list --zookeeper node01:2181,node02:2181,node03:21813)生产数据bin/kafka-consol.原创 2021-12-10 09:15:29 · 351 阅读 · 0 评论 -
Kafka集群安装
1)下载地址http://archive.apache.org/dist/kafka/0.10.0.0/kafka_2.11-0.10.0.0.tgz2)上传到服务器并解压将下载好的安装包上传到node01服务器的/export/softwares路径下,然后进行解压node01执行以下命令进行解压安装包cd /export/softwarestar -zxvf kafka_2.11-0.10.0.0.tgz -C /export/servers/3)修改配置文件node01原创 2021-12-10 09:13:55 · 173 阅读 · 0 评论 -
Spark Mllib数据挖掘入门四——回归分析
回归分析(regression analysis)是一种用来确定两种或两种以上变量间相互依赖的定量关系的统计分析方法,运用十分广泛。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多重线性回归分析。回归分析是最常用的机器学习算法之一。本文将向读者介绍线性回归的基本理论与MLlib中使用的预测算法,以及为了防止过度拟合而进行的正则化处理,这些不仅仅是回归算法原创 2021-02-24 01:23:04 · 416 阅读 · 0 评论 -
Spark Mllib数据挖掘入门三——协同过滤算法
协同过滤算法是最常用的推荐算法,其主要有两种具体形式:基于用户的推荐算法和基于物品的推荐算法。推荐算法的基础是基于两个对象之间的相关性。ALS(alternating least squares)是交替最小二乘法的简称,也是MLlib的基础推荐算法。1.协同过滤其基本思想是利用人性的相似性进行相似比较。协同过滤算法的确认就是标准推荐算法作为一种可行的机器推荐算法标准步入正轨。协同过滤算法主要有两种:• 一是通过考察具有相同爱好的用户对相同物品的评分标准进行计算;• 二是考察具有相同特质的物原创 2021-02-23 17:39:17 · 409 阅读 · 0 评论 -
Spark Mllib数据挖掘入门二——数理统计基础
数理统计是伴随着概率论的发展而发展起来的一个数学分支。1.统计量基本数据colStats是Statistics类计算基本统计量的方法,其工作和计算是以列为基础进行计算,调用不同的方法可以获得不同的统计量值。基本统计量如下:2.距离计算normL1和normL2,代表着欧几里得距离和曼哈段距离。欧几里得距离是一个常用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)曼哈顿距离,标明两个点在标准坐标系上的绝对轴距总和。3.两组数据相关系数计.原创 2021-02-23 15:16:43 · 186 阅读 · 0 评论 -
Spark Mllib数据挖掘入门一——基本数据类型
RDD是MLlib专用的数据格式,它参考了Scala函数式编程思想,并大胆引入统计分析概念,将存储数据转化成向量和矩阵的形式进行存储和计算,这样将数据定量化表示,能更准确地整理和分析结果。分为以下几类:1.本地向量集主要由两类构成:稀疏型数据集(spares)和密集型数据集(dense)。例如一个向量数据(9,5,2,7),按密集型数据格式可以被设定成(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储。而对于稀疏型数据,可以按向量的大小存储为(4,Array(0...原创 2021-02-23 10:03:54 · 281 阅读 · 0 评论 -
centos安装tomcat、redis、mysql
1.安装tomcat下载tar包,并解压即可2.安装redis1)检查并安装gcc的版本gcc --versiondnf install gcc2)下载redis6并解压缩wget http://download.redis.io/releases/redis-6.0.1.tar.gztar -zxvf redis-6.0.1.tar.gz3)安装rediscd redis-6.0.1/make PREFIX=/usr/local/soft/redis6 inst原创 2021-02-07 12:45:31 · 107 阅读 · 0 评论