380884531-CSDN博客

原创大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等（持续更新）

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口Zookeeper: 2181 ：客户端连接zookeeper的端口 2888 ： zookeeper集群内通讯使用，Lea...

2020-11-25 14:11:18 307

原创三大数据分析工具对比 - 友盟 GrowingIO 神策数据

三大数据分析工具对比 - 友盟 GrowingIO 神策数据数据分析半年，title应该是数据分析专员。怎么说呢，如果是在稍大一点的公司，数据分析专员的要求一般并不止于excel，很有可能是要求熟练使用公司自建或者外采的数据分析工具。从描述中看，很可能提问者是在一家小型公司，可能是创业型公司,这类公司的IT信息化水平较低，集约化要求高；从提问中看到使用Excel挺长时间，可以发现实际职能偏向业务运营层面。很多人的回答可能存在一些误区，首先我们来想想这类公司对于数据分析业务（可能是数分，运营，.

2020-11-25 14:09:23 11999

原创大数据产品-Spark面试题

这部分的关于 Spark 的面试题是我自己作为面试者和作为面试官都会被问到或者问到别人的问题，做一下总结，另外这个总结里面有参考了网上和书上各位老师、大佬的一些原文答案，只是希望可以给出更好的回答，一般上我都会把原文链接贴上，如有侵权请联系删除，再次感谢各位提供的资料，真的学习了很多，也是时候给点回馈了哈！个人认为，如果你有一定的 Spark 基础，但是经常在面试中表现不佳，那么这篇总结应该非常适合你！因为文章是用 Cmd Markdown 写的，导入到知乎里的效果不太好（比如目录无法渲染出来），所以为

2020-11-19 15:52:23 1051

原创大数据面试题130道

1、HashMap 和 Hashtable 区别HashMap和Hashtable都实现了Map接口，但决定用哪一个之前先要弄清楚它们之间的分别。主要的区别有：线程安全性，同步(synchronization)，以及速度。HashMap几乎可以等价于Hashtable，除了HashMap是非synchronized的，并可以接受null(HashMap可以接受为null的键值(key)和值(value)，而Hashtable则不行)。HashMap是非synchronized，而Hashta..

2020-11-19 15:48:37 3737 1

原创前端埋点方案设计思路

前端监控和前端埋点方案设计在线上项目中,需要统计产品中用户行为和使用情况，从而可以从用户和产品的角度去了解用户群体，从而升级和迭代产品，使其更加贴近用户。用户行为数据可以通过前端数据监控的方式获得，除此之外，前端还需要实现性能监控和异常监控。性能监控包括首屏加载时间、白屏时间、http请求时间和http响应时间。异常监控包括前端脚本执行报错等。实现前端监控有三个步骤：前端埋点和上报、数据处理和数据分析。本文针对整个前端监控，设计适用的方案。本文的主要内容分为：为什么需要前端监控常用前端埋点

2020-11-13 16:29:56 2120

原创 Flink Transformation中map、filter、flatMap算子详细介绍

本文将对Flink Transformation中各算子进行详细介绍，并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化，是Flink流处理非常核心的API。如之前文章所述，多个Transformation算子共同组成一个数据流图。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDnkbPZD-1576554022497)(/Users/luweizheng/Documents/iCloud/博文/大数据/Flin...

2020-11-11 14:06:08 811

原创 flink中的Watermark

Watermark实时计算可以基于时间属性对数据进行窗口聚合。基于Event Time时间属性的窗口函数作业中，数据源表的声明中需要使用Watermark方法。定义由于实时计算的输入数据是持续不断的，因此我们需要一个有效的进度指标，来帮助我们确定关闭时间窗口的正确时间点，保证关闭窗口后不会再有数据进入该窗口，可以安全输出这个窗口的聚合结果。而Watermark就是一种衡量Event Time进展的有效机制。随着时间的推移，最早流入实时计算的数据会被处理完成，之后流入的数据处于正在处理状态。处于正

2020-11-10 22:05:55 501

原创第四章 Flink 运行架构

Flink 运行时的组件 Flink 运行时架构主要包括四个不同的组件，它们会在运行流处理应用程序时协同工作：作业管理器（JobManager）、资源管理器（ResourceManager）、任务管理器（TaskManager），以及分发器（Dispatcher）。因为 Flink 是用 Java 和 Scala 实现的，所以所有组件都会运行在Java 虚拟机上。每个组件的职责如下：作业管理器（JobManager）控制一个应用程序执行的主进程，也就是说，每个应...

2020-11-06 13:41:44 91

原创第三章 Flink 部署

Standalone 模式安装解压缩flink-1.10.1-bin-scala_2.12.tgz，进入 conf 目录中。修改 flink/conf/flink-conf.yaml 文件：修改 /conf/slaves 文件：分发给另外两台机子：启动：访问 http://...

2020-11-06 13:36:11 214

原创第二章 flink安装启动，完成批处理、流处理任务

2.1 搭建 maven 工程 FlinkTutorial 2.1.1 pom 文件 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.a..

2020-11-06 11:51:41 241

原创第一章 Flink 简介

第一章 Flink 简介初识Flink Flink 起源于 Stratosphere 项目，Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目， 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会，参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员， 2014 年 12 月， Flink 一跃成为 Apache 软件基金会的顶级项目。在德语中，Fl

2020-11-06 11:19:00 121

原创大数据文章汇总-Hadoop、MapReduce、Storm、Spark、Flink

Hadoop生态，包括HDFS、MapReduce、YARN、HBase等等。大数据、Hadoop核心框架和MapReduce原理CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）Hadoop生态系统-新手快速入门（含HDFS、HBase系统架构）HBase v2.1.4 最新版安装-单机模式（CentOS 7）HBase 常用的Shell命令（操作演示截图）

2020-11-06 10:47:27 261 1

原创聊聊Hadoop、Storm、Spark Streaming、Flink在大数据领域的现状

Hadoop 生态组件竞争激烈，Spark 优势明显，MapReduce 已进入维护模式曾有开发人员表示，Hadoop 主要是被 MapReduce 拖累了，其实 HDFS 和 YARN 都还不错。堵俊平（腾讯云专家研究员）则认为 MapReduce 拖累 Hadoop 的说法并不准确：首先 MapReduce 还是有应用场景，只是越来越窄，它仍然适合某些超大规模数据处理的批量任务，且任务运行非常稳定；其次，Hadoop 社区对于 MapReduce 的定位就是进入维护模式，并不追求任何新的

2020-11-06 10:45:37 580

原创 Apache Flink-基于Java项目模板创建Flink应用（流计算和批计算）

Apache Flink创建模板项目有2种方式：1. 通过Maven archetype命令创建；2. 通过Flink 提供的Quickstart shell脚本创建；关于Apache Flink的环境搭建，请参考相关链接：Apache Flink快速入门-基本架构、核心概念和运行流程Apache Flink v1.8 本地单机环境安装和运行Flink应用1. 通过Maven archetype创建Flink项目#使用Maven创建mvn archetype:generat

2020-11-06 10:41:54 1882

原创 Apache Flink v1.8 本地单机环境安装和运行Flink应用

Flink 运行环境Flink 执行环境分为：本地单机环境和集群环境本地单机环境：主要是为了方便用户编写、调试代码使用。集群环境：用于正式环境，可以借助Hadoop YARN、Mesos、Kubernetes等不同的资源管理器部署自己的应用。搭建本地单机环境（CentOS 7）Flink可以在Linux、Mac OS X和Windows上运行，要求安装Java 8.x。java -versionFlink 官网查看最新版本：http://flink...

2020-11-06 10:37:55 691

原创 Apache Flink v1.9-SNAPSHOT 源码编译

Apache Flink v1.9-SNAPSHOT 源码编译下载源码Flink 源码可以从官方 github repository上下载。git clone https://github.com/apache/flink.git下载时间会比较长，慢慢等吧。编译源码Flink源码编译依赖于 JDK和Maven的环境，JDK 必须在1.8 版本之上，Maven必须在 3.0版本以上，否则编译会出错。进入flink目录：cd flink编译打包：..

2020-11-06 10:35:18 121

原创 Apache Flink快速入门-基本架构、核心概念和运行流程

Apache Flink 是什么？Flink是一个基于流计算的分布式引擎，以前的名字叫stratosphere，从2010年开始在德国一所大学里发起，也是有好几年的历史了，2014年来借鉴了社区其它一些项目的理念，快速发展并且进入了Apache顶级孵化器，后来更名为Flink。Flink在德语中是快速和灵敏的意思，用来体现流式数据处理速度快和灵活性强等特点。Flink提供了同时支持高吞吐、低延迟和exactly-once 语义的实时计算能力，另外Flink 还提供了基于流式计算引擎处理.

2020-11-06 10:20:34 228

原创 Linux 升级glibc-2.18

Linux 升级glibc-2.18[root@node01 ~]wget http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gz[root@node01 ~]# tar -xf glibc-2.18.tar.gz[root@node01 ~]# cd glibc-2.18[root@node01 glibc-2.18]# mkdir build; c...

2019-11-10 11:56:45 4870 3

原创 start-yarn.sh出错 ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.

start-dfs.sh错误ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to operate on hdfs dat...

2019-10-27 15:02:42 4960 1

原创 Hadoop完全高可用集群启动流程

zookeeper作用：2个namenode做高可用故障转移使用1、启动zk：1、2、3、4节点整体执行：[root@node01 hadoop]zkServer.sh start2、查看ZK服务状态:整体执行：[root@node01 hadoop]zkServer.sh status注a. 启动ZK服务: sh bin/zkServer.sh startb. 查看Z...

2019-10-27 00:28:39 947

转载免费科研数据集

“聚数据”平台整理了网上开放的免费科研数据集，以下是分类列表以及下载地址，供高校和科研机构免费下载和使用。以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335金融美国劳工部统计局官方发布数据上证A股日线数据，1999.12.09 至 2016.06.08，前复权，1095支股票深证A股日线数据，1999...

2019-10-15 17:11:44 560

转载数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码

随笔 - 119 文章 - 0 评论 - 13数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码一、问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如siz...

2019-03-18 00:13:36 1937

转载 numpy中的ndarray与pandas的Series和DataFrame之间的区别

在数据分析中，经常涉及numpy中的ndarray对象与pandas的Series和DataFrame对象之间的转换，让大家产生困惑。本文将简单介绍这三种数据类型，并以股票信息为例，给出相关对象之间转换的具体示例。ndarray数组对象NumPy中的ndarray是一个多维数组对象，该对象由两部分组成：实际的数据；描述这些数据的元数据。大部分的数组操作仅仅修改元数据部分，而不改变底层的实...

2019-03-16 21:30:34 683

转载模型评价方法

模型评价方法https://www.jianshu.com/p/b4d40760156c?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

2019-03-11 21:33:15 436

转载 sklearn库的学习

sklearn库的学习https://blog.csdn.net/u014248127/article/details/78885180

2019-03-11 18:57:44 126

原创理解Scikit-Learn中分类性能度量指标

理解Scikit-Learn中分类性能度量指标https://cloud.tencent.com/developer/news/300696Understanding Data Science Classification Metrics in Scikit-Learn in Python在本教程中，我们将介绍Python的scikit-learn中的一些分类度量指标 - 从头开始学习和编写...

2019-03-11 18:10:06 609

原创支持向量机（SVM）入门理解与推导

支持向量机（SVM）入门理解与推导https://blog.csdn.net/sinat_20177327/article/details/79729551

2019-03-11 14:56:09 237

转载机器学习“特征编码”解析

机器学习“特征编码”解析1 为什么要进行特征编码？我们拿到的数据通常比较脏乱，可能会带有各种非数字特殊符号，比如中文。下面这个表中显示了我们最原始的数据集。而实际上机器学习模型需要的数据是数字型的，因为只有数字类型才能进行计算。因此，对于各种特殊的特征值，我们都需要对其进行相应的编码，也是量化的过程。preview2 特征编码类型本篇，我们主要说一下分类型特征的编码方式。对于分类型数据的...

2019-03-10 21:27:06 584