自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

亦行

为梦想选择了远方,便没有回头路可以走。所以,要么战死沙场,要么狼狈回乡!

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 集成方法stacking的简单阐述

在西瓜书有介绍到一种名为stacking的集成学习方法,在这里简单阐述下,大家一起学习,相互进步。在此我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器。Stacking先从初始数据集训练出学习器,然后生成一个新数据集用于训练次级学习器,在这个新数据集中,初级学习器的输出被当做样例输入特征,而初始样本的标记仍被当作样例的标记。在训练阶段,次级训练集是利用初级学习器产生的,若

2017-12-10 16:15:55 2383 2

原创 scikit中pipeline的作用

pipeline为方便处理数据,提供了两种模式:串行化和并行化1、串行化,通过Pipeline类实现通过steps参数,设定数据处理流程,格式为('key','value'),key为这一step设定的名称,value是对应的处理类。通过list将这些step传入。前n-1个step必须为transform函数,最后的step可有可无,一般为模型,pipeline继承了最有一个

2017-12-10 16:02:24 11157

转载 矩阵的奇异值分解过程

矩阵的奇异值分解(singular value decomposition,简称SVD)是线性代数中很重要的内容,并且奇异值分解过程也是线性代数中相似对角化分解(也被称为特征值分解,eigenvalue decomposition,简称EVD)的延伸。因此,以下将从线性代数中最基础的矩阵分解开始讲起,引出奇异值分解的定义,并最终给出奇异值分解的低秩逼近问题相关的证明过程。1 线性代数中的矩

2017-08-04 17:58:29 8074

转载 Hbase rowkey 设计原则

HBase是三维有序存储的,三维指的是:RowKey(行健)、column key(columnFamily和qualifier)、TimeStamp(时间戳),通过这三个维度我们可以对HBase中的数据进行快速定位。下面我们主要来讨论RowKey的设计原则:HBase中RowKey可以唯一标识一条记录,在HBase查询的时候,我们有两种方式,第一种是通过get()方法指定RowKey条件

2016-10-07 17:06:53 1796

转载 布隆过滤器(Bloom Filter)详解

布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但是实际上

2016-10-07 16:23:09 830

原创 二叉树宽度

public static int getMaxWidth(TreeNode root) {if (root == null)    return 0;Queue queue = new ArrayDeque();        int maxWitdth = 1; // 最大宽度queue.add(root); // 入队while (true) {   int le

2016-10-06 22:34:02 469

转载 sqoop使用中文手册

Sqoop中文手册8,038浏览 1条回复子猴:Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花了一些时间将Sqoop的使用整理成了一份中文手册,我自认还是非常全面的,覆盖到了Sqoop所有的方面。虽然对每一个用法,我都是尽可能地先经过测试然后再得出结论,但可能难免会有谬误,不过总的来说希望能对使用Sqoop的朋友有点帮助吧。

2016-10-06 20:41:54 577

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2016-10-06 20:03:15 584

转载 Spark性能优化指南——基础篇

调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD

2016-10-06 19:30:15 663

转载 hashmap冲突的解决方法以及原理分析

在Java编程语言中,最基本的结构就是两种,一种是数组,一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造,HashMap也一样。当程序试图将多个 key-value 放入 HashMap 中时,以如下代码片段为例:HashMap m=new HashMap(); m.put("a", "rrr1"); m.put("b", "tt9"); m.put("c",

2016-10-06 19:23:43 36734 5

转载 java lock的底层实现原理

关于java lock的底层实现原理,讲的有点深,转载学习!Lock完全用Java写成,在java这个层面是无关JVM实现的。在java.util.concurrent.locks包中有很多Lock的实现类,常用的有ReentrantLock、ReadWriteLock(实现类ReentrantReadWriteLock),其实现都依赖java.util.concurrent.Ab

2016-10-06 19:08:39 4056

转载 java 虚拟机 垃圾回收器原理和使用总结

垃圾回收常用算法1、引用计数引用计数算法很简单,对于一个对象A,只要有一个对象引用了A则的引用计数加1,当引用失效则引用计数减1,只要对象A的引用计数为0,则对象A即可被列为回收的对象。引用计数的实现也很简单,只要为对象配置一个整形的计数器即可,但引用计数有一个严重的问题就是无法处理循环引用的情况,因此在java的垃圾回收器中没有用这种算法。2、标记清除标记-清

2016-10-06 16:32:19 542

转载 15 个开源的顶级人工智能工具

人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到人们对此感兴趣的程度,我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论:“越来越强大的人工智能应用,可能会对我们的社会和经济产生深远的积

2016-10-06 16:19:02 34300 1

转载 YARN ResourceManager调度器的分析

转自: http://tech.uc.cn/?p=1438 YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如,CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码,原代码位置使用[

2016-10-06 16:09:37 2704

转载 hadoop作业调优参数整理及原理(整个mapreduce运行流程都讲的清楚,一步一步优化)

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOut

2016-10-06 15:35:25 513

深度学习 花书

《深度学习》由全球知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。   《深度学习》适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。

2017-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除