bigdata
文章平均质量分 64
weixin_41734687
这个作者很懒,什么都没留下…
展开
-
Nifi + Kafka + Flink(Scala)+ Doris Sqlserver 数据实时同步
一 Nifi 配置2.搜索表生成器配置信息创建数据库连接池连接信息jdbc:sqlserver://10.126.141.189:29528;DatabaseName=dbDatabase Driver Class Name:com.microsoft.sqlserver.jdbc.SQLServerDriver打开连接池最后配置好的processer二 创建sql执行器创建json解析器配置json解析器{ "namespace": "zhuihu",原创 2021-01-20 23:32:46 · 1868 阅读 · 0 评论 -
Nifi + Kafka + mysql构建实时数仓
标题Nifi + Kafka + mysql构建实时数仓Nifi 安装 Nifi安装Kafka安装 kafka安装一 Nifi 简介Nifi 最重要的就是Processor(数据处理单元)和FlowFlie(数据流)FlowFile: 每条“用户数据”(即,用户通过NiFi获取或者是生成的,需要进行处理和分发的数据)均被称为FlowFile。 FlowFile由两部分组成:属性和内容。 内容是用户数据本身, 属性是与用户数据关联的键值对,用来提供一些额外的信息。比如fliename,表示的就是原创 2020-07-12 22:57:55 · 2575 阅读 · 1 评论 -
Kafka 单机安装 Mac
标题Kafka 单机安装 Mac一 下载官网下载http://archive.apache.org/dist/kafka/2.0.0/kafka_2.12-2.0.0.tgz二 解压我解压到了/BigData 下 一般最好解压到/usr/local 下解压命令:tar -zxvf kafka_2.12-2.0.0.tar四 简单修改配置文件 也可不修改在config下 修改zookeeper.properties 是zookeeper的配置文件 ,主要是简单配置下面的三个参数(这部分具体介原创 2020-07-12 19:42:18 · 308 阅读 · 0 评论 -
实时数仓建设 环境配置 NIFI安装
标题实时数仓建设 环境配置 NIFI安装一 Linux NIFI安装安装NIFI需要现安装java(自行百度安装吧)NIFI安装解压完就能使用非常方便1.1 安装NIFI官网下载http://nifi.apache.org/download.html 这里下载的是1.8解压(解压到任意目前,最好解压到/usr/local/nifi)tar -zxvf nifi-1.8.0-bin.tar修改配置文件在conf目录下修改打开解压后nifi-1.8.0目录下的 /conf/ ni原创 2020-07-12 19:26:47 · 455 阅读 · 0 评论 -
大数据 java01 hive udf函数(手机号码脱敏)
这里写自定义目录标题Hive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 使用UDFHive UDF 函数1 POM 文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://原创 2020-06-20 12:42:08 · 1575 阅读 · 0 评论 -
机器学习 part3
机器学习 part3机器学习与运用第三天 机器学习与运用回归算法 线性回归分类算法 逻辑回归聚类算法 kmeans一 回归算法 线性回归1.1 回归举例什么是回归期末考试成绩判定期末成绩:0.7×考试成绩+0.3×平时成绩西瓜好坏判断西瓜好坏:0.2×色泽+0.5×根蒂+0.3×敲声1.2 线性模型试图学得一个通过属性的线性组合来进行预测的函数:f(x)=w_1x_1+w_2x_2+…+w_d*x_d+bw为权重,b称为偏置项,可以理解为:w_0×11.3 线性回归原创 2020-05-10 21:52:29 · 164 阅读 · 0 评论 -
机器学习与应用 part 2
机器学习与应用第二天 机器学习与应用1.sklearn数据集与估计器2.分类算法k近邻算法一 sklearn 数据集与估计器1.1 sklearn 数据集数据集划分sklearn数据集接口介绍sklearn分类数据集sklearn回归数据集1.1.1 数据集的划分数据集划分思考:如果数据集全部用于训练模型,有什么问题?只训练了模型,没有数据集对模型进行验证,没有模...原创 2020-04-13 08:16:21 · 315 阅读 · 0 评论 -
多用户合并 利用 并查集——求无向图的所有连通子图
并查集——求无向图的所有连通子图求解无向图的连通子图,有两种方法,一种是DFS或BFS,也就是对图遍历,另一种方法就是使用并查集。对图的遍历非常常见,而并查集的概念就不如遍历那么熟悉。其实如果仅是找连通子图,用DFS对所有节点遍历一遍就可以,而用并查集则需要遍历两遍。我们不考虑算法效率问题,仅仅是通过这个问题让我们对并查集有所认识,并了解其原理,下面主要说一下并查集。 首先说一下,并查集是一...转载 2020-03-24 13:49:11 · 667 阅读 · 0 评论 -
hive 存储格式对比
hive 存储格式对比Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。...转载 2020-01-07 15:38:42 · 163 阅读 · 0 评论 -
hive 数据倾斜原因及解决
转载 添加链接描述???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。在了解数据倾斜之前,我们应该有一个常识,就是现实生活中的数据分布是不均匀的,俗话说"...转载 2019-11-07 18:42:22 · 1162 阅读 · 1 评论 -
用户画像-ID_MAPPING pyspark实战
一、背景简介用户性别预测是我进入机器学习领域的HelloWorld级工程实践,也是第一个从业务需求分析、数据源调研、数据整理和特征工程到建模、模型评估、系统部署这一完整流程都由自己独立设计实现的工程。非常有幸能接触到这个难度不是很大,但是却很好将我带入机器学习的世界的工程。前后大约花了4个月的时间做了三个版本,这是其中第二个版本,这个版本耗时大约1.5个月。一 项目背景公司大数据平台从无到有...原创 2019-08-11 12:08:07 · 4176 阅读 · 11 评论 -
Sqoop 介绍 安装 应用
Sqoop 介绍 安装 应用总体介绍Sqoop简单介绍1.1 概述作用:导入导出数据sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库1.2 工作机制本质利用mapreduce来实现...原创 2018-11-17 23:55:54 · 221 阅读 · 0 评论 -
Azkaban 安装及简单使用
Azkaban 安装及简单使用安装大体过程:1 Azkaban安装部署准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立...原创 2018-11-17 13:37:17 · 251 阅读 · 0 评论 -
hive 锁表 解决方法
hive表执行insert overwrite table_a partition(dt=‘20181121’) select * from table_b 时,报错FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some timeorg.apa...原创 2018-11-22 11:24:56 · 3527 阅读 · 0 评论 -
Sqoop 各参数详解
转载sqoopSqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到Ha...原创 2018-11-18 19:50:15 · 1878 阅读 · 0 评论 -
Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序
需求:公司给到一份全国各门店销售数据,要求:1.按门店市场分类,将同一市场的门店放到一起;2.将各家门店按销售额从大到小,再按利润从大到小排列一 需求一:按市场对门店进行分组分组(partition)Hadoop streaming框架默认情况下会以’/t’作为分隔符,将每行第一个’/t’之前的部分作为key,其余内容作为value,如果没有’/t’分隔符,则整行作为key;这个key/v...原创 2018-10-28 21:16:57 · 1263 阅读 · 0 评论 -
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系
参考文档一 Mapreduce Yarn Hdfs三者联系(比喻有不恰当的地方,但更容易理解三者之间的关系)Mapreduce,Yarn,Hdfs三者之间的关系,可以用电脑来进行解释。大体可以理解为:windows系统电脑上的一个视频播放软件(mapreduce),通过windows操作系统(yarn)找到存在电脑硬盘(hdfs)上的电影,然后视频播放器播放电影Yarn 相当于电脑的操作...原创 2018-10-25 22:35:19 · 3239 阅读 · 3 评论 -
hive 安装与配置 用mysql存储元数据
安装配置mysql安装配置hive一 mysql 安装配置一、Mysql安装1、安装mysql命令:yum install mysql-server -y (-y参数作用为所有需要输入yes的地方默认yes)2、打开mysql服务:service mysqld start3、设置mysql服务开机自启动(也可以不设置,开机手动启动):chkconfig --add mysq...原创 2018-11-01 00:32:14 · 616 阅读 · 0 评论 -
Python 玩转大数据 Mapreduce开发 wordcount
一 介绍MapReduce 是一种分布式编程模型,用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后 再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。使用python写MapReduce的“诀窍”是利用Hadoop流的A...原创 2018-10-27 10:55:39 · 648 阅读 · 0 评论 -
DB、ETL、DW、OLAP、DM、BI关系结构图
发现一篇好文,后期整理,目前是全文引用参考链接DB、ETL、DW、OLAP、DM、BI关系结构图DB、ETL、DW、OLAP、DM、BI关系结构图在此大概用口水话简单叙述一下他们几个概念:(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看...原创 2018-11-10 21:38:03 · 673 阅读 · 0 评论 -
python3.5 连接hive(hive有密码并且集群Kerberos认证) 基本使用 pyhive
1.安装相关依赖目前python3连接hive的方法主要是使用pyhive包,但是要安装pyhive也不是那么容易的事情,因为pyhive要使用系统底层模块,所以就要先安装对应的模块。sudo yum install cyrus-sasl-develsudo yum install gcc-c++pip3 install saslpip3 install thriftpip3 ins...原创 2018-11-10 22:59:34 · 5169 阅读 · 0 评论 -
flume 安装及应用
1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个数据搬运工,侧重于数据的搬运,而不是数据处理Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配...原创 2018-11-11 00:03:46 · 584 阅读 · 0 评论 -
Flume中的HDFS Sink配置参数说明
完全引用原文原文channeltypehdfspath写入hdfs的路径,需要包含文件系统标识,比如hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式。fileSuffix写...原创 2018-11-13 23:03:16 · 120 阅读 · 0 评论 -
Hive 简单应用
一 Hive 使用方式1.1.Hive shell直接在hive的安装目录下,然后输入hql语句就可以了bin/hive1.2.通过Hive thrift服务启动,启动后可以远程连接启动为前台:bin/hiveserver2启动为后台:(1代表标准输出,2代表错误输出,标准输出和错误输出分别重定向到不同的日志文件)nohup bin/hiveserver2 1&amp;amp;gt;/var/l...原创 2018-11-09 00:24:39 · 202 阅读 · 0 评论 -
sqoop 导入数据到hive分区表(外表,内表) 指定分区 指定数据库 指定表
sqoop 导入数据到hive1.1.导入数据到hive分区表(内表),指定分区创建hive分区表–hive-database 指定数据库–table 指定表–hive-overwrite 覆盖已有表中的数据从mysql导入数据到hive,导入的hive的默认数据库bin/sqoop import --connect jdbc:mysql://180.150.188.119:3...原创 2018-11-18 19:21:03 · 8638 阅读 · 0 评论 -
python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4
python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4官方文档参考文档在mac_pro上运行,自己搭建的hadoop集群,测试之前先要将集群/etc/hosts文件中域名映射ip关系,追加到mac /etc/hosts中在mac_pro终端vi /etc/hosts # 把以下内容追加到/etc/hosts192.168.146.135 s...原创 2018-10-20 22:09:26 · 1405 阅读 · 0 评论