自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LW_ICE

bigdata

  • 博客(13)
  • 收藏
  • 关注

转载 Spark Streaming 实现思路与模块概述

一、基于 Spark 做 Spark Streaming 的思路Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于 Spark Core 的 RDD API,如何对 streaming data 进行处理。理解下面描述的这个思路非常重要,因为基于这个思路详细展开后,就能够充分理解整个 Spark Streaming ...

2019-03-28 13:36:54 233

转载 美团点评移动端基础日志库

背景对于移动应用来说,日志库是必不可少的基础设施,美团点评集团旗下移动应用每天产生的众多种类的日志数据已经达到几十亿量级。为了解决日志模块普遍存在的效率、安全性、丢失日志等问题,Logan基础日志库应运而生。现存问题目前,业内移动端日志库大多都存在以下几个问题:卡顿,影响性能 日志丢失 安全性 日志分散首先,日志模块作为底层的基础库,对上层的性能影响必须尽量小,但是日志的写...

2019-03-22 10:12:32 398

转载 美团数据平台Kerberos优化实战

背景Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户端、服务器端的应用程序提供强大的认证服务。作为一种可信任的第三方认证服务,Kerberos是通过传统的密码技术(如:共享密钥)执行认证服务的,被Client和Server同时信任。KDC是对该协议中第三方认证服务的一种具体实现,一直以来都是美团数据平台的核心服务之一,在Hive、HDFS、YARN等开源组件的权限认证方...

2019-03-22 10:05:28 1026

原创 CDH6.1.x离线安装

cloudera manager + cdh6.1.x 离线安装

2019-03-20 17:44:55 4887 16

转载 第四章 第十节 神经网络(程序示例--神经网络设计)

在神经网络的结构设计方面,往往遵循如下要点:输入层的单元数等于样本特征数。 输出层的单元数等于分类的类型数。 每个隐层的单元数通常是越多分类精度越高,但是也会带来计算性能的下降,因此,要平衡质量和性能间的关系。 默认不含有隐藏层(感知器),如果含有多个隐层,则每个隐层上的单元数最好保持一致。因此,对于神经网络模块,我们考虑如下设计:设计 sigmoid 函数作为激励函数:d...

2019-03-20 16:54:51 454

转载 第四章 第十二节 神经网络(程序示例--多分类问题)

我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为20×2020×20,总的样本规模为5000×4005000×400,我们的神经网络设计如下,包含 1 个隐含层,隐层含 25 个神经元,:# coding: utf-8# neural_network/test_handwritten_digits.py"""手写字符集"""im...

2019-03-20 16:54:41 313

转载 第四章 第十一节 神经网络(程序示例--逻辑运算)

程序示例--逻辑运算我们使用感知器神经网络来描述逻辑AND运算:代码:# coding: utf-8# neural_network/test_logic_and.py"""逻辑AND运算"""import nnimport numpy as npdata = np.mat([ [0, 0, 0], [1, 0, 0], [0, 1, 0],...

2019-03-20 16:54:29 481

转载 第四章 第九节 神经网络(神经网络解决多分类问题)

神经网络解决多分类问题假定我们需要将图像分为四类:行人图像 车辆图像 摩托车图像 卡车图像这是一个多分类问题,由于图像特征较多,因此我们可以考虑设计含有多个隐含层的神经网络来完成特征优化(扩展):注意,我们设计了一个含有多个输出的神经网络,亦即,我们会用01的组合来定义不同的分类:而不是使用标量来定义分类,这样使得我们容易利用上简单的 sigmoid 函数来进行...

2019-03-20 16:54:19 1097

转载 第四章 第六节 神经网络(权值初始化)

在 matlab 中,随机初始化权值的代码如下:Theta1 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;Theta2 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;在 python 中,随机初始化权值的代码如下:import numpy as np# ...T...

2019-03-20 16:54:00 753

转载 第四章 第五节 神经网络(梯度校验(Gradient Checking))

2019-03-20 16:53:46 332

转载 第四章 第四节 神经网络(参数展开(Unrolling Parameters))

matlab 中还原:Theta1 = reshape(thetaVec(1:110),10,11)Theta2 = reshape(thetaVec(111:220),10,11)Theta3 = reshape(thetaVec(221:231),1,11)python 中还原:import numpy as np# ...Theta1 = thetaVec[0:...

2019-03-20 16:53:06 651

转载 JVM的GC调优(下)

本文是JVM层GC调优(上)的后续,在上一篇文章中,我们介绍了JVM的内存结构、常见的垃圾回收算法以及垃圾收集器和不同收集器中的一些GC调优参数。所以通过上文,我们也对GC相关的内容有了一定的了解。但是光知道一些调优参数是没用的,我们需要能够从GC的日志中去分析可以调优的地方,这样才能使用这些参数去进行相应的调整,所以本小节将介绍一下不同收集器的GC日志格式。我们这里以Tomcat为例...

2019-03-06 13:53:51 536

转载 JVM的GC调优(上)

JVM内存结构简介(jdk1.8)JVM层的GC调优是生产环境上必不可少的一个环节,因为我们需要确定这个进程可以占用多少内存,以及设定一些参数的阀值。以此来优化项目的性能和提高可用性,而且这也是在面试中经常会被问到的问题。想要进行GC调优,我们首先需要简单了解下JVM的内存结构,Java虚拟机的规范文档如下:https://docs.oracle.com/javase/specs/j...

2019-03-06 13:48:56 377

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除