自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等(持续更新)

常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Lea...

2020-11-25 14:11:18 305

原创 三大数据分析工具对比 - 友盟 GrowingIO 神策数据

三大数据分析工具对比 - 友盟 GrowingIO 神策数据数据分析半年,title应该是数据分析专员。怎么说呢,如果是在稍大一点的公司,数据分析专员的要求一般并不止于excel,很有可能是要求熟练使用公司自建或者外采的数据分析工具。从描述中看,很可能提问者是在一家小型公司,可能是创业型公司,这类公司的IT信息化水平较低,集约化要求高;从提问中看到使用Excel挺长时间,可以发现实际职能偏向业务运营层面。很多人的回答可能存在一些误区,首先我们来想想这类公司对于数据分析业务(可能是数分,运营,.

2020-11-25 14:09:23 11988

原创 大数据产品-Spark面试题

这部分的关于 Spark 的面试题是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,做一下总结,另外这个总结里面有参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除,再次感谢各位提供的资料,真的学习了很多,也是时候给点回馈了哈!个人认为,如果你有一定的 Spark 基础,但是经常在面试中表现不佳,那么这篇总结应该非常适合你!因为文章是用 Cmd Markdown 写的,导入到知乎里的效果不太好(比如目录无法渲染出来),所以为

2020-11-19 15:52:23 1051

原创 大数据面试题130道

1、HashMap 和 Hashtable 区别HashMap和Hashtable都实现了Map接口,但决定用哪一个之前先要弄清楚它们之间的分别。主要的区别有:线程安全性,同步(synchronization),以及速度。HashMap几乎可以等价于Hashtable,除了HashMap是非synchronized的,并可以接受null(HashMap可以接受为null的键值(key)和值(value),而Hashtable则不行)。HashMap是非synchronized,而Hashta..

2020-11-19 15:48:37 3737 1

原创 前端埋点方案设计思路

前端监控和前端埋点方案设计在线上项目中,需要统计产品中用户行为和使用情况,从而可以从用户和产品的角度去了解用户群体,从而升级和迭代产品,使其更加贴近用户。用户行为数据可以通过前端数据监控的方式获得,除此之外,前端还需要实现性能监控和异常监控。性能监控包括首屏加载时间、白屏时间、http请求时间和http响应时间。异常监控包括前端脚本执行报错等。实现前端监控有三个步骤:前端埋点和上报、数据处理和数据分析。本文针对整个前端监控,设计适用的方案。本文的主要内容分为:为什么需要前端监控 常用前端埋点

2020-11-13 16:29:56 2120

原创 Flink Transformation中map、filter、flatMap算子详细介绍

本文将对Flink Transformation中各算子进行详细介绍,并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化,是Flink流处理非常核心的API。如之前文章所述,多个Transformation算子共同组成一个数据流图。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDnkbPZD-1576554022497)(/Users/luweizheng/Documents/iCloud/博文/大数据/Flin...

2020-11-11 14:06:08 811

原创 flink中的Watermark

Watermark实时计算可以基于时间属性对数据进行窗口聚合。基于Event Time时间属性的窗口函数作业中,数据源表的声明中需要使用Watermark方法。定义由于实时计算的输入数据是持续不断的,因此我们需要一个有效的进度指标,来帮助我们确定关闭时间窗口的正确时间点,保证关闭窗口后不会再有数据进入该窗口,可以安全输出这个窗口的聚合结果。而Watermark就是一种衡量Event Time进展的有效机制。随着时间的推移,最早流入实时计算的数据会被处理完成,之后流入的数据处于正在处理状态。处于正

2020-11-10 22:05:55 501

原创 第四章 Flink 运行架构

Flink 运行时的组件 Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作: 作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为 Flink 是用 Java 和 Scala 实现的,所以所有组件都会运行在Java 虚拟机上。每个组件的职责如下: 作业管理器(JobManager) 控制一个应用程序执行的主进程, 也就是说, 每个应...

2020-11-06 13:41:44 91

原创 第三章 Flink 部署

Standalone 模式 安装 解压缩flink-1.10.1-bin-scala_2.12.tgz, 进入 conf 目录中。 修改 flink/conf/flink-conf.yaml 文件: 修改 /conf/slaves 文件: 分发给另外两台机子: 启动: 访问 http://...

2020-11-06 13:36:11 214

原创 第二章 flink安装启动,完成批处理、流处理任务

2.1 搭建 maven 工程 FlinkTutorial 2.1.1 pom 文件 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.a..

2020-11-06 11:51:41 240

原创 第一章 Flink 简介

第一章 Flink 简介 初识Flink Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目, 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会, 参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员, 2014 年 12 月, Flink 一跃成为 Apache 软件基金会的顶级项目。在德语中,Fl

2020-11-06 11:19:00 120

原创 大数据文章汇总-Hadoop、MapReduce、Storm、Spark、Flink

Hadoop生态,包括HDFS、MapReduce、YARN、HBase等等。大数据、Hadoop核心框架和MapReduce原理CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试Hadoop v3.1.2 伪分布式安装(Pseudo-Distributed Operation)Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构)HBase v2.1.4 最新版安装-单机模式(CentOS 7)HBase 常用的Shell命令(操作演示截图)

2020-11-06 10:47:27 259 1

原创 聊聊Hadoop、Storm、Spark Streaming、Flink在大数据领域的现状

Hadoop 生态组件竞争激烈,Spark 优势明显,MapReduce 已进入维护模式曾有开发人员表示,Hadoop 主要是被 MapReduce 拖累了,其实 HDFS 和 YARN 都还不错。堵俊平( 腾讯云专家研究员)则认为 MapReduce 拖累 Hadoop 的说法并不准确:首先 MapReduce 还是有应用场景,只是越来越窄,它仍然适合某些超大规模数据处理的批量任务,且任务运行非常稳定;其次,Hadoop 社区对于 MapReduce 的定位就是进入维护模式, 并不追求任何新的

2020-11-06 10:45:37 580

原创 Apache Flink-基于Java项目模板创建Flink应用(流计算和批计算)

Apache Flink创建模板项目有2种方式:1. 通过Maven archetype命令创建;2. 通过Flink 提供的Quickstart shell脚本创建;关于Apache Flink的环境搭建,请参考相关链接:Apache Flink快速入门-基本架构、核心概念和运行流程Apache Flink v1.8 本地单机环境安装和运行Flink应用1. 通过Maven archetype创建Flink项目#使用Maven创建mvn archetype:generat

2020-11-06 10:41:54 1882

原创 Apache Flink v1.8 本地单机环境安装和运行Flink应用

Flink 运行环境Flink 执行环境分为:本地单机环境和集群环境本地单机环境:主要是为了方便用户编写、调试代码使用。集群环境:用于正式环境,可以借助Hadoop YARN、Mesos、Kubernetes等不同的资源管理器部署自己的应用。搭建本地单机环境(CentOS 7)Flink可以在Linux、Mac OS X和Windows上运行,要求安装Java 8.x。java -versionFlink 官网查看最新版本:http://flink...

2020-11-06 10:37:55 689

原创 Apache Flink v1.9-SNAPSHOT 源码编译

Apache Flink v1.9-SNAPSHOT 源码编译下载源码Flink 源码可以从官方 github repository上下载。git clone https://github.com/apache/flink.git下载时间会比较长,慢慢等吧。编译源码Flink源码编译依赖于 JDK和Maven的环境,JDK 必须在1.8 版本之上,Maven必须在 3.0版本以上,否则编译会出错。进入flink目录:cd flink编译打包:..

2020-11-06 10:35:18 121

原创 Apache Flink快速入门-基本架构、核心概念和运行流程

Apache Flink 是什么?Flink是一个基于流计算的分布式引擎,以前的名字叫stratosphere,从2010年开始在德国一所大学里发起,也是有好几年的历史了,2014年来借鉴了社区其它一些项目的理念,快速发展并且进入了Apache顶级孵化器,后来更名为Flink。Flink在德语中是快速和灵敏的意思,用来体现流式数据处理速度快和灵活性强等特点。Flink提供了同时支持高吞吐、低延迟和exactly-once 语义的实时计算能力,另外Flink 还提供了基于流式计算引擎处理.

2020-11-06 10:20:34 226

原创 Linux 升级glibc-2.18

Linux 升级glibc-2.18[root@node01 ~]wget http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gz[root@node01 ~]# tar -xf glibc-2.18.tar.gz[root@node01 ~]# cd glibc-2.18[root@node01 glibc-2.18]# mkdir build; c...

2019-11-10 11:56:45 4870 3

原创 start-yarn.sh出错 ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.

start-dfs.sh错误ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to operate on hdfs dat...

2019-10-27 15:02:42 4958 1

原创 Hadoop完全高可用集群启动流程

zookeeper作用:2个namenode做高可用故障转移使用1、启动zk:1、2、3、4节点整体执行:[root@node01 hadoop]zkServer.sh start2、查看ZK服务状态:整体执行:[root@node01 hadoop]zkServer.sh status注a. 启动ZK服务: sh bin/zkServer.sh startb. 查看Z...

2019-10-27 00:28:39 947

转载 免费科研数据集

“聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335金融美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999...

2019-10-15 17:11:44 560

转载 数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码

随笔 - 119 文章 - 0 评论 - 13数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如siz...

2019-03-18 00:13:36 1935

转载 numpy中的ndarray与pandas的Series和DataFrame之间的区别

在数据分析中,经常涉及numpy中的ndarray对象与pandas的Series和DataFrame对象之间的转换,让大家产生困惑。本文将简单介绍这三种数据类型,并以股票信息为例,给出相关对象之间转换的具体示例。ndarray数组对象NumPy中的ndarray是一个多维数组对象,该对象由两部分组成:实际的数据;描述这些数据的元数据。大部分的数组操作仅仅修改元数据部分,而不改变底层的实...

2019-03-16 21:30:34 683

转载 模型评价方法

模型评价方法https://www.jianshu.com/p/b4d40760156c?utm_campaign=maleskine&amp;utm_content=note&amp;utm_medium=seo_notes&amp;utm_source=recommendation

2019-03-11 21:33:15 436

转载 sklearn库的学习

sklearn库的学习https://blog.csdn.net/u014248127/article/details/78885180

2019-03-11 18:57:44 126

原创 理解Scikit-Learn中分类性能度量指标

理解Scikit-Learn中分类性能度量指标https://cloud.tencent.com/developer/news/300696Understanding Data Science Classification Metrics in Scikit-Learn in Python在本教程中,我们将介绍Python的scikit-learn中的一些分类度量指标 - 从头开始学习和编写...

2019-03-11 18:10:06 608

原创 支持向量机(SVM)入门理解与推导

支持向量机(SVM)入门理解与推导https://blog.csdn.net/sinat_20177327/article/details/79729551

2019-03-11 14:56:09 236

转载 机器学习“特征编码”解析

机器学习“特征编码”解析1 为什么要进行特征编码?我们拿到的数据通常比较脏乱,可能会带有各种非数字特殊符号,比如中文。下面这个表中显示了我们最原始的数据集。而实际上机器学习模型需要的数据是数字型的,因为只有数字类型才能进行计算。因此,对于各种特殊的特征值,我们都需要对其进行相应的编码,也是量化的过程。preview2 特征编码类型本篇,我们主要说一下分类型特征的编码方式。对于分类型数据的...

2019-03-10 21:27:06 583

转载 机器学习之sklearn生成数据和生成分类数据

机器学习之sklearn生成数据和生成分类数据https://blog.csdn.net/wangdong2017/article/details/81326341

2019-03-10 17:39:44 501

转载 线性回归的sklearn、tensorflow和keras实现及可视化

线性回归的sklearn、tensorflow和keras实现及可视化https://blog.csdn.net/weixin_34245082/article/details/87530359

2019-03-10 16:56:36 851

转载 机器学习算法的随机数据生成

机器学习算法的随机数据生成https://www.cnblogs.com/pinard/p/6047802.html

2019-03-10 12:55:28 190

转载 python3安装mayavi,实现3d动态可视化操作

python3安装mayavi,实现3d动态可视化操作https://blog.csdn.net/banyanmars/article/details/80838951

2019-03-10 10:19:10 1462

转载 逻辑回归及其评价指标

逻辑回归及其评价指标https://blog.csdn.net/yh_1021/article/details/82765923

2019-03-10 09:26:04 2007

转载 线性回归、逻辑回归(Logistic Regression, LR)简介

线性回归、逻辑回归(Logistic Regression, LR)简介https://blog.csdn.net/jk123vip/article/details/80591619

2019-03-09 19:45:03 427

转载 为什么用交叉熵做损失函数

为什么用交叉熵做损失函数https://blog.csdn.net/huwenxing0801/article/details/82791879

2019-03-09 17:04:07 287

转载 逻辑回归原理

逻辑回归原理https://blog.csdn.net/weixin_41899461/article/details/88023155

2019-03-09 16:04:38 124

转载 最小二乘法原理解释

最小二乘法原理解释https://endlesslethe.com/easy-to-learn-ols.html

2019-03-09 13:28:58 699

转载 导数、偏导数、梯度之间的关系

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/czmacd/article/details/81178650学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法,然后顺着扯出了一堆高数的相关概念理论:导数、偏导数、全微分、方向导数、梯度,重新回顾它们之间的一些关系,从网上和教材中摘录相关知识点。通过函数的极限定义出导数(以一元函数为例)函数...

2019-03-08 10:28:44 10705

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除