weixin_41734687-CSDN博客

原创 Nifi + Kafka + Flink（Scala）+ Doris Sqlserver 数据实时同步

一 Nifi 配置2.搜索表生成器配置信息创建数据库连接池连接信息jdbc:sqlserver://10.126.141.189:29528;DatabaseName=dbDatabase Driver Class Name：com.microsoft.sqlserver.jdbc.SQLServerDriver打开连接池最后配置好的processer二创建sql执行器创建json解析器配置json解析器{ "namespace": "zhuihu",

2021-01-20 23:32:46 1760

原创 Nifi + Kafka + mysql构建实时数仓

标题Nifi + Kafka + mysql构建实时数仓Nifi 安装 Nifi安装Kafka安装 kafka安装一 Nifi 简介Nifi 最重要的就是Processor（数据处理单元）和FlowFlie（数据流）FlowFile: 每条“用户数据”（即，用户通过NiFi获取或者是生成的，需要进行处理和分发的数据）均被称为FlowFile。 FlowFile由两部分组成：属性和内容。内容是用户数据本身，属性是与用户数据关联的键值对，用来提供一些额外的信息。比如fliename，表示的就是

2020-07-12 22:57:55 2433 1

原创 Kafka 单机安装 Mac

标题Kafka 单机安装 Mac一下载官网下载http://archive.apache.org/dist/kafka/2.0.0/kafka_2.12-2.0.0.tgz二解压我解压到了/BigData 下一般最好解压到/usr/local 下解压命令：tar -zxvf kafka_2.12-2.0.0.tar四简单修改配置文件也可不修改在config下修改zookeeper.properties 是zookeeper的配置文件 ,主要是简单配置下面的三个参数（这部分具体介

2020-07-12 19:42:18 281

原创实时数仓建设环境配置 NIFI安装

标题实时数仓建设环境配置 NIFI安装一 Linux NIFI安装安装NIFI需要现安装java（自行百度安装吧）NIFI安装解压完就能使用非常方便1.1 安装NIFI官网下载http://nifi.apache.org/download.html 这里下载的是1.8解压（解压到任意目前，最好解压到/usr/local/nifi）tar -zxvf nifi-1.8.0-bin.tar修改配置文件在conf目录下修改打开解压后nifi-1.8.0目录下的 /conf/ ni

2020-07-12 19:26:47 413

原创大数据 java01 hive udf函数（手机号码脱敏）

这里写自定义目录标题Hive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 使用UDFHive UDF 函数1 POM 文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://

2020-06-20 12:42:08 1419

原创机器学习 part3

机器学习 part3机器学习与运用第三天机器学习与运用回归算法线性回归分类算法逻辑回归聚类算法 kmeans一回归算法线性回归1.1 回归举例什么是回归期末考试成绩判定期末成绩：0.7×考试成绩+0.3×平时成绩西瓜好坏判断西瓜好坏：0.2×色泽+0.5×根蒂+0.3×敲声1.2 线性模型试图学得一个通过属性的线性组合来进行预测的函数：f(x)=w_1x_1+w_2x_2+…+w_d*x_d+bw为权重，b称为偏置项，可以理解为：w_0×11.3 线性回归

2020-05-10 21:52:29 149

转载 scikit-learn朴素贝叶斯GaussianNB实例

scikit-learn朴素贝叶斯GaussianNB实例1、什么是朴素贝叶斯在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出Y和特征X的...

2020-04-24 11:39:48 1226

原创机器学习与应用 part 2

机器学习与应用第二天机器学习与应用1.sklearn数据集与估计器2.分类算法k近邻算法一 sklearn 数据集与估计器1.1 sklearn 数据集数据集划分sklearn数据集接口介绍sklearn分类数据集sklearn回归数据集1.1.1 数据集的划分数据集划分思考：如果数据集全部用于训练模型，有什么问题？只训练了模型，没有数据集对模型进行验证，没有模...

2020-04-13 08:16:21 298

原创用户画像-ID_MAPPING 利用并查集——求无向图的所有连通子图来实现所有用户合并

一项目背景本项目是基于https://blog.csdn.net/weixin_41734687/article/details/99174064 此项目的改进。去年利用jacaard相似度对多用户进行了合并。由于受到计算资源的制约，在对多用户进行合并时，只选取了有限量元素进行合并，导致一些用户没有合并为一个用户，在实际数据运用中，会出现部分数据one_id会发生变化，对用户画像分析造成了困...

2020-03-25 00:10:04 1053

转载多用户合并利用并查集——求无向图的所有连通子图

并查集——求无向图的所有连通子图求解无向图的连通子图，有两种方法，一种是DFS或BFS，也就是对图遍历，另一种方法就是使用并查集。对图的遍历非常常见，而并查集的概念就不如遍历那么熟悉。其实如果仅是找连通子图，用DFS对所有节点遍历一遍就可以，而用并查集则需要遍历两遍。我们不考虑算法效率问题，仅仅是通过这个问题让我们对并查集有所认识，并了解其原理，下面主要说一下并查集。　　首先说一下，并查集是一...

2020-03-24 13:49:11 629

原创机器学习 python

**机器学习**机器学习发展背景1.机器学习奠基人“人工智能之父” 艾伦.图灵马文·李·闵斯基（英语：Marvin Lee Minsky，1927年8月9日－2016年1月24日），科学家，专长于认知科学与人工智能领域，麻省理工学院人工智能实验室的创始人之一，著有几部人工智能和哲学方面的作品。1969年，因为在人工智能领域的贡献，获得图灵奖。2.机器学习发展机器学习包含人工智能，...

2020-03-19 00:09:53 333

原创 tableau 制作疫情可视化报表(impala 连接)

tableau 制作疫情可视化报表1.tableau 通过impala连接hadoop1.1 mac下载tableau，impala驱动（https://www.cloudera.com/downloads/connectors/impala/odbc/2-6-5.html），下载安装完成后直接按上图连接即可。1.2 选择要操作的数据库...

2020-02-29 23:28:51 1596 1

转载 hive 存储格式对比

2020-01-07 15:38:42 148

原创 Cookie 和 Session深入理解

我在做面试官的时候，曾经问过很多朋友这个问题： Cookie 和 Session 有什么区别呢？大部分的面试者应该都可以说上一两句，比如：什么是 Cookie？什么是 Session？两者的区别等。但如果再往深入探讨的话，就慢慢有一些朋友不太了解了，谈起原理时就很少有朋友全部回答准确。今天和大家一起深入聊聊有关 Cookie 和 Session 的话题。第一层楼什么是 Cookie 和 S...

2019-12-12 15:35:34 124

转载 hive 数据倾斜原因及解决

转载添加链接描述???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。在了解数据倾斜之前，我们应该有一个常识，就是现实生活中的数据分布是不均匀的，俗话说"...

2019-11-07 18:42:22 1125 1

转载 SecureCRT的快捷键

转载自https://blog.csdn.net/qyf_5445/article/details/24313023Alt + Enter – 全屏Alt + B – 快速打开新的连接Alt + 1/2/3/4/5…/9 – 切换到第1/2/3/4/5…/9个标签Ctrl + A | Alt+A – 光标移至行首，windows复制功能应用后，使用Alt+ACtrl + E – 光标...

2019-09-29 13:52:24 111

原创用户画像-ID_MAPPING pyspark实战

一、背景简介用户性别预测是我进入机器学习领域的HelloWorld级工程实践，也是第一个从业务需求分析、数据源调研、数据整理和特征工程到建模、模型评估、系统部署这一完整流程都由自己独立设计实现的工程。非常有幸能接触到这个难度不是很大，但是却很好将我带入机器学习的世界的工程。前后大约花了4个月的时间做了三个版本，这是其中第二个版本，这个版本耗时大约1.5个月。一项目背景公司大数据平台从无到有...

2019-08-11 12:08:07 4085 11

原创非csdn文章收藏

通过移动设备行为数据预测性别年龄

2019-07-30 11:46:25 94

原创机器学习-朴素贝叶斯文本分类Python实现

机器学习-朴素贝叶斯文本分类Python实现前面提到的K最近邻算法和决策树算法，数据实例最终被明确的划分到某个分类中，下面介绍朴素贝叶斯是一种运用概率给对象进行分类，而不是完全确定实例应该分到哪个类；K近邻算法和决策树，对象被明确划分到了某个类。优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：要求数据相互独立，往往数据并不是完全独立的适用数据类型：标称型数据。朴素贝叶斯的一般...

2019-07-19 08:12:56 1127

原创 hive 计算球队比赛各球队反超比分的球员姓名及时间连续三次得分球员

球队比赛反超球员及连续得分球员问题计算问题：两支篮球队进行了激烈的篮球比赛，比分交替上升。比赛结束后，你有一张两队得分分数的明细表，记录了球队team，球员号码number，球员姓名name, 得分分数score 以及得分时间score_time(string,秒级)。现在球队要对比赛中表现突出的球员做出嘉奖，所以请你用sql统计出1)比赛中帮助各自球队反超比分的球员姓名以及对应时间。2...

2019-05-30 16:06:53 1446

原创店铺销售异常监测和薅羊毛用户识别

店铺销售异常监测和薅羊毛用户识别一店铺销售异常监测公司财务反应全国个别店铺短时间核销了大量优惠券三个维度进行监控识别销售收入和物料成本（物料成本上传数据有延迟）进行对比，物料成本占比大于40%，异常销售收入和优惠券核销数量对比一个用户短时间内订单数量异常或者一天该用户订单数达到10以上1.1 销售收入和物料成本异常计算店铺销售额（数据样例稍后提供）和成本（不提供数据样例，查询...

2019-05-22 23:31:22 1743

原创 linux df du ls 命令详解

2018-11-22 11:50:39 444

原创 hive 锁表解决方法

hive表执行insert overwrite table_a partition(dt=‘20181121’) select * from table_b 时，报错FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some timeorg.apa...

2018-11-22 11:24:56 3440

原创 Sqoop 各参数详解

转载sqoopSqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成数据的迁移和同步。比如，下面两个潜在的需求：业务数据存放在关系数据库中，如果数据量达到一定规模后需要对其进行分析或同统计，单纯使用关系数据库可能会成为瓶颈，这时可以将数据从业务数据库数据导入（import）到Ha...

2018-11-18 19:50:15 1853

原创 sqoop 导入数据到hive分区表（外表，内表）指定分区指定数据库指定表

sqoop 导入数据到hive1.1.导入数据到hive分区表（内表），指定分区创建hive分区表–hive-database 指定数据库–table 指定表–hive-overwrite 覆盖已有表中的数据从mysql导入数据到hive，导入的hive的默认数据库bin/sqoop import --connect jdbc:mysql://180.150.188.119:3...

2018-11-18 19:21:03 8566

原创 Sqoop 介绍安装应用

Sqoop 介绍安装应用总体介绍Sqoop简单介绍1.1 概述作用：导入导出数据sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库1.2 工作机制本质利用mapreduce来实现...

2018-11-17 23:55:54 213

原创 Azkaban 安装及简单使用

Azkaban 安装及简单使用安装大体过程：1 Azkaban安装部署准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立...

2018-11-17 13:37:17 239

原创 Flume中的HDFS Sink配置参数说明

完全引用原文原文channeltypehdfspath写入hdfs的路径，需要包含文件系统标识，比如hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值：FlumeData写入hdfs的文件名前缀，可以使用flume提供的日期及%{host}表达式。fileSuffix写...

2018-11-13 23:03:16 111

原创 flume 安装及应用

1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个数据搬运工，侧重于数据的搬运，而不是数据处理Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配...

2018-11-11 00:03:46 575

原创 python3.5 连接hive（hive有密码并且集群Kerberos认证）基本使用 pyhive

1.安装相关依赖目前python3连接hive的方法主要是使用pyhive包，但是要安装pyhive也不是那么容易的事情，因为pyhive要使用系统底层模块，所以就要先安装对应的模块。sudo yum install cyrus-sasl-develsudo yum install gcc-c++pip3 install saslpip3 install thriftpip3 ins...

2018-11-10 22:59:34 5125

原创 DB、ETL、DW、OLAP、DM、BI关系结构图

发现一篇好文，后期整理，目前是全文引用参考链接DB、ETL、DW、OLAP、DM、BI关系结构图DB、ETL、DW、OLAP、DM、BI关系结构图在此大概用口水话简单叙述一下他们几个概念：（1）DB/Database/数据库——这里一般指的就是OLTP数据库，在线事物数据库，用来支持生产的，比如超市的买卖系统。DB保留的是数据信息的最新状态，只有一个状态！比如，每天早上起床洗脸照镜子，看...

2018-11-10 21:38:03 661

原创 Hive 简单应用

一 Hive 使用方式1.1.Hive shell直接在hive的安装目录下，然后输入hql语句就可以了bin/hive1.2.通过Hive thrift服务启动，启动后可以远程连接启动为前台：bin/hiveserver2启动为后台：(1代表标准输出，2代表错误输出，标准输出和错误输出分别重定向到不同的日志文件)nohup bin/hiveserver2 1&amp;amp;gt;/var/l...

2018-11-09 00:24:39 189

原创 hive 安装与配置用mysql存储元数据

安装配置mysql安装配置hive一 mysql 安装配置一、Mysql安装1、安装mysql命令:yum install mysql-server -y　　（-y参数作用为所有需要输入yes的地方默认yes）2、打开mysql服务:service mysqld start3、设置mysql服务开机自启动（也可以不设置，开机手动启动):chkconfig --add mysq...

2018-11-01 00:32:14 597

原创 Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序

需求：公司给到一份全国各门店销售数据，要求：1.按门店市场分类，将同一市场的门店放到一起；2.将各家门店按销售额从大到小，再按利润从大到小排列一需求一：按市场对门店进行分组分组(partition)Hadoop streaming框架默认情况下会以’/t’作为分隔符，将每行第一个’/t’之前的部分作为key，其余内容作为value，如果没有’/t’分隔符，则整行作为key；这个key/v...

2018-10-28 21:16:57 1237

原创 Python 玩转大数据 Mapreduce开发 wordcount

一介绍MapReduce 是一种分布式编程模型，用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。使用python写MapReduce的“诀窍”是利用Hadoop流的A...

2018-10-27 10:55:39 633

原创 MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系

参考文档一 Mapreduce Yarn Hdfs三者联系（比喻有不恰当的地方，但更容易理解三者之间的关系）Mapreduce，Yarn，Hdfs三者之间的关系，可以用电脑来进行解释。大体可以理解为：windows系统电脑上的一个视频播放软件（mapreduce），通过windows操作系统（yarn）找到存在电脑硬盘（hdfs）上的电影，然后视频播放器播放电影Yarn 相当于电脑的操作...

2018-10-25 22:35:19 3180 3

原创 python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4

python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4官方文档参考文档在mac_pro上运行，自己搭建的hadoop集群，测试之前先要将集群/etc/hosts文件中域名映射ip关系，追加到mac /etc/hosts中在mac_pro终端vi /etc/hosts # 把以下内容追加到/etc/hosts192.168.146.135 s...

2018-10-20 22:09:26 1384

原创 python pandas 将excell转为csv 处理数据日期替换数据内换行换行代码亲测可用

pandas 将excell转为csv，并且替换掉excell里面的换行符，处理完日期业务需求：公司从外部获取了一份excell文件，需要把文件放到hive里面，excell里面有不符合要求的日期格式，并且字段里面包含换行符，hive识别后，会造成字段串位，所以需要把excell的日期和换行符处理完成之后，转成csv，然后推到集群将excell转成csv def exce...

2018-09-05 23:41:39 2700

原创 Python SMTP发送邮件 python2,python3通用

Python SMTP发送邮件 python2,python3通用业务需求：集群每天会生成一些统计的excell报表，需要将这些excell报表定时发送到相关邮箱。主要分为三步** 实例化邮件传输实例，和邮件服务器建立连接（打开邮箱）smtpObj = smtplib.SMTP()smtpObj.connect('smtp.163.com',25)# 需要SSL认证# s...

2018-08-25 15:28:12 852

空空如也

空空如也