大数据
文章平均质量分 96
sxsAffable
这个作者很懒,什么都没留下…
展开
-
clickhouse 核心知识与集群介绍
clickhouse 核心知识与集群介绍,介绍了 ck 的表引擎、数据类型、以及常见的 sql 语法。原创 2021-12-07 15:49:52 · 2879 阅读 · 0 评论 -
协同过滤算法(基于用户)
协同过滤算法1. 流程图2. 算法详细步骤背景: 使用基于用户的协同过滤算法进行网站预测1. 流程图2. 算法详细步骤读取文件,处理每一行数据,把用户id和网址id转化为long类型(因为协同过滤模型这两列为long类),并转化为DataModel(模型输入数据)。转化出用户评分矩阵(没有的填充0)。如下表所示(部分):用户id\网址id1101001011021031041051060140100143103原创 2020-05-26 17:24:04 · 2356 阅读 · 0 评论 -
hadoop集群运行MR程序、mahout程序
hadoop集群运行MR程序1. 启动集群2. 上传程序资源到hdfs3. 修改程序文件路径4. 安装mahout5. 提交程序到集群本教程在配置完hadoop,可以正常运行的前提下进行1. 启动集群# 启动hdfssbin/start-dfs.sh# 启动yarnsbin/start-yarn.sh使用jps命令,看到如下图所示,启动成功。2. 上传程序资源到hdfs第一步:把文件上传到服务器。第二步:把文件上传到hdfs集群。bin/hadoop dfs -put原创 2020-05-22 15:59:44 · 587 阅读 · 0 评论 -
日志系统搭建(elk7.x)
使用elastic stack搭建日志收集分析系统1. elasticsearch的搭建2. cerebro的搭建3. kibana的搭建4. fielbeat的搭建随着公司的发展,需要一个日志分析系统,来分析用户数据,为了调研,所以先使用elastic stack搭建了一个单节点的日志收集分析系统。使用技术:elasticsearch7.1.1、cerebro0.9.0、kibana7.1.1、filebeat7.1.1。1. elasticsearch的搭建elasticsearch的原创 2020-05-15 14:00:06 · 1341 阅读 · 0 评论 -
redis集群搭建
在测试环境搭建三个主节点,三个从节点的redis集群。三台服务器,操作系统:centos7,redis版本:3.2.0。每台机器上有两个节点,一个主节点,一个从节点,所以每台机器上需要redis占用两个端口启动,分别是6379、6380。安装步骤:第一步:登录其中一台机器(我登录的是cdh1),进入到安装目录(我的安装目录是 /appdata/tools,请修改为自己的安装目录)...原创 2019-09-19 15:53:18 · 233 阅读 · 0 评论 -
Spark写入数据到MySQL解析(未完成)
DF.write.mode("append").jdbc(url, tableName, prop)首先调用Dataset中的write方法,在write方法中创建DataFrameWriter对象;在DataFrameWriter中,调用mode方法,将设置的mode值保存在类成员变量中;调用jdbc方法,在jdbc方法中,调用format;把成员变量source设置...原创 2019-04-10 16:50:41 · 491 阅读 · 0 评论 -
spark读取HBase,处理输出到mysql
需求:spark读取HBase中的数据,提取某三列,经过聚合,输出到mysql中。代码实现:import java.util.Propertiesimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org...原创 2019-03-22 13:36:10 · 1063 阅读 · 0 评论 -
HDFS中namenode元数据管理机制
元数据:包含两个内容1) fileName2) block块存储位置 --> 刚开启hdfs时,datanode汇报块存储主机位置。如图所示:1、当client向namenode发出更新元数据请求时,namenode会根据更新的数据内容存放位置等更新好元数据。而每次做的更新操作都会被记录到edits中。2、secondaryNamenode每隔一段时间(默认为30分钟...转载 2019-03-04 19:29:49 · 1949 阅读 · 0 评论 -
HDFS写数据流程
相关概念:block:文件上传之前要分块,这个块就是block,一般为128M,是最大的一个单位。packet:packet是第二大单位,它是client向datanode或者datanode之间经过pipline传输数据的基本单位,默认为64kb。chunk:chunk是最小的单位,它是client向datanode或者datanode之间经过pipline传输数据时进行校验的基本单...原创 2019-03-04 18:54:21 · 331 阅读 · 0 评论 -
yarn运行流程
1、client向yarn提交job,首先找ResourceManager分配资源;2、ResourceManager开启一个Container,在Container中运行一个Application manager;3、Application manager找一个nodemanager启动Application master;4、Application master向Applicati...转载 2019-03-03 16:04:16 · 442 阅读 · 0 评论 -
hadoop的shuffle过程
hadoop的shuffle分为map端的shuffle和reduce端的shuffle1、map端的shuffle如上图所示: maptask先调用InputFormat中的getRecordReader方法,获取RecordReader对象读取文件。读取进内存中,经过map方法中的context.write()写出,由OutPutCollector收集到数据,并存放到环...原创 2019-03-03 15:33:07 · 336 阅读 · 0 评论