自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

My Sunshine

Make a dent in the universe

  • 博客(50)
  • 收藏
  • 关注

原创 下载Hadoop源代码,自己编译

准备工作Unix 系统, Mac和Linux都可以 Jdk 1.6及其以上 Maven (Maven的Mac安装教程在oozie安装里有介绍:https://blog.csdn.net/lucylove3943/article/details/80673962) Protocol Buffer (Protobuf,安装教程在导Hadoop源码里面有介绍:https://blog.csdn...

2020-07-23 10:00:00 764

原创 手把手一步步ubuntu上安装mininet和onos,以及安装过程中遇见的问题和解决方法

我用了两台机子,一台装了mininet,一台装了onos。这两台都是空白新开的机子,刚装上ubuntu系统。Mininet(命令行基本来自于官网)没有git的话,先安装git:sudo apt-get install git然后clone mininet项目到本地:git clone git://github.com/mininet/mininet然后进入mininet目录下,选择自己想要的版本cd mininetgit tag # 显示所有版本git ch.

2020-05-15 01:12:44 5737 19

原创 Oozie 学习例子:航班信息分析

写在前面这篇blog是用Oozie调用MapReduce来对航班信息进行分析。航班信息数据来源于网站:http://stat-computing.org/dataexpo/2009/the-data.html数据里每一列代表的意思在该网站也有详细说明。因为每一年的数据量都挺大,每一年大概有几百MB,而这篇博客主要是想记录oozie的使用,所以我并没有直接用下载下来的数据。而是截取了...

2020-05-01 22:03:28 1271

原创 Hadoop的机架配置rack-awareness

一直都说Hadoop的HDFS默认会把所有文件复制三份:第一份随机选一个datanode 第二份在另一个机架(rack)上随机选一个datanode 第三份在第二份的机架上再选一个datanode但是如果不特别配置的话,hadoop是不知道机架信息的,会默认所有的datanode都在同一个机架上。如何让Hadoop知道机架信息呢?就需要靠自己配置啦~~~Hadoop说明...

2020-05-01 22:02:59 936

原创 手把手Spark集群安装配置及例子-多种模式

安装前的准备安装好Fully-distributedHadoop的集群,安装Hadoop教程参考:https://blog.csdn.net/lucylove3943/article/details/80589422我目前在6台机子上搭了Hadoop-2.9.2,这是当前的配置:Master Node: falcon-1Slave Nodes: falcon-2, falco...

2019-11-20 03:04:51 493

原创 从头开始 手把手 oozie 安装配置 with an example

安装前准备 安装hadoop,可参考文章:https://blog.csdn.net/lucylove3943/article/details/80589422 不需要pig, hive, spark等等。就follow这两篇blog,一切搞定。 一些必要的安装工作 Maven安装 进入maven 下载页面:https://m...

2019-11-20 03:04:27 7812 14

原创 Oozie 调用 Spark on Yarn:傻瓜教程从编译,配置安装到运行

安装前准备:安装hadoop,可参考文章:https://blog.csdn.net/lucylove3943/article/details/80589422安装spark,可参考文章:https://blog.csdn.net/lucylove3943/article/details/96477861我当前电脑安装的hadoop版本是2.9.2,spark的版本是2.4.4,和上面...

2019-11-19 05:15:01 823

原创 Hadoop 3.2.0配置

~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_HOME=/home/qianwen/hadoop-3.2.0export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbinexport HADOOP_MAPRED...

2019-07-25 00:36:58 804

原创 Summary of "Unikernal: Rise of the Virtual Library Operating System"

This paper is about Mirage OS, one instance of Library OS in the virtualization world.There are mainly three motivations for Mirage OS: 1.Currently, in traditional operating system, the soft...

2019-05-01 10:06:32 235

原创 超简单随机森林介绍:如何建立,如何使用,如何衡量好坏以及如何处理数据缺失

这篇博客和上一篇博客一样,也是我看视频的笔记,以下所有图片和例子来自于以下两个视频:https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&index=2&list=PLyeGvkJQKy7nDT5kH9S99_p51DcDRQEIR&t=0shttps://www.youtube.com/watch?v=nyxTdL_4Q-Q&am...

2019-02-13 09:32:07 5742

原创 超级简单易懂的决策树介绍:什么是决策树,如何构建决策树

这个笔记是根据我看这个视频来记的:https://www.youtube.com/watch?v=7VeUPuFGJHk&t=0s&list=PLyeGvkJQKy7nDT5kH9S99_p51DcDRQEIR&index=3所有图片都来自于该视频。 什么是决策树在介绍决策树之前,先解释一下如下几个概念:根结点:如图所示只有子节点,没有父节点的节点,...

2019-02-12 13:14:04 18056 7

原创 Rabin-Karp算法:字符串匹配问题

为什么写这篇博客其实有不少博客都有写Rabin-Karp算法,而且这个算法也非常简单易懂,但是很多人都说“该算法的理论复杂度是O(mn),在实际生活中是O(m+n)”。其实这个是不对的,在理论上,这个算法的复杂度也是O(m+n)。这篇文章就是想更深的一步讨论Rabin-Karp算法,解释为什么它的复杂度就应该是O(m+n)。SubString Pattern Matching(字...

2018-11-13 05:40:22 18038 13

原创 Java新版本找不到tools.jar的解决方法Missing tools.jar at: /Library/Java/JavaVirtualMachines/jdk1.8.0_171.jdk/Con

在build hadoop源代码的时候,报了如下的错误:Missing tools.jar at: /Library/Java/JavaVirtualMachines/jdk1.8.0_171.jdk/Contents/Home/Classes/classes.jar主要是因为最近出的新版java,把原来的tools.jar给整合了一下。所以很多以前老的找tools.jar包的程序就...

2018-08-15 04:16:11 17028

原创 oozie时区报错处理方法,mysql设置utc方法

想再自己的电脑上装一个oozie,方便自己调试啥的。按照前面写的oozie安装配置教程,吭哧吭哧的安装单机版的oozie……但是当我尝试链接oozie和mysql的时候,也就是执行到这一句的时候:bin/ooziedb.sh create -sqlfile oozie.sql -run收到一个报错信息:java.lang.Exception: Could not connect to the da...

2018-07-11 07:20:46 1035

原创 手把手Hadoop Fully Distributed Mode 安装和配置 with an example

安装前准备 4台电脑组成的cluster。目标: 在这4台电脑上配置fully distributed Hadoop-2.6.5, 因为之后要用这个Cluster来搭oozie,所以就不装最新的版本。这个博客写的时候是搭在amazon aws上的,但是我最近发现,如果把Hadoop搭在云上,Hadoop一段时间不执行job,云会把一些Hadoop必须用到的端口关掉...

2018-06-08 03:07:25 918

原创 VC维(VC dimension)

参考文献:learning from data——Yaser S. Abu-Monstafa/ Malik Magdon-Ismail / Hsuan-Tien Lin

2015-08-05 18:52:46 14636 12

原创 统计学习方法——模型的选择与评估(过拟合、泛化能力)

参考书目及论文:《统计学习方法》——李航、A Tutorial on Support Vector Machine for Pattern Recognition监督学习的目的是找到一个输入输出映射(模型),使得这个模型不仅对训练数据有很好的拟合能力,对于未知数据,它也有很好的预测能力。这篇博客介绍选择和评估模型的标准。本篇博客一共有以下几个重点:训练误差与测试误差、泛化能力、过拟

2015-07-25 21:42:45 15890 1

原创 统计学习笔记——统计学习三要素

参考书:《统计学习方法》——李航统计学习的三要素为:模型、策略、算法。以下以监督学习为基础来进行论述。一、模型在监督学习当中,我们的目的是学习一个由输入到输出的映射,这个映射就是模型。一般来说,模型有两种形式,一种是概率模型(条件概率分布),另一种形式是非概率模型(决策函数)。我们根据实际情况和具体的学习方法来决定是用概率模型还是用非概率模型。二、策略

2015-07-25 18:04:29 4308

原创 素数,以此做为我23岁的生日特别篇(读书笔记——什么是数学)

(一)什么是素数?一个大于1的自然数,除了1和它本身外,不能被其他自然数整除,换句话说就是该数除了1和它本身以外不再有其他的因数。(来自百度百科)素数的特殊性在于每一个整数都能表示为素数的乘积。(二)素数是无穷的->一个构造素数的方法大家都知道素数是无穷的,分享一个在书上看到的证明方法——反证法。假设有个素数,现在我们构造一个数由于每一个整数都能表示为素数的

2015-06-24 20:34:32 811

转载 数学归纳法及其证明(读书笔记——什么是数学)

它的证明挺简单的,我就是想提升一下B格所以po出来。数学归纳法:证明一整个无穷多个数学命题:1)通过某些数学论证证明了:如果是任意正整数,且如果命题已知是真的,则可推出命题也为真。2)如果已知为真。那么整个序列都为真。数学归纳法的证明:首先介绍一个最小自然数原理:任何一个非空正整数集都有最小元素。我们考虑任意一系列命题:

2015-06-13 11:13:46 3721

原创 读数学之美——统计语言模型(马尔科夫)

因为在学校做的东西用到了HSMM(隐式半马尔科夫模型),所以对马尔科夫也算是不少接触,但在看吴军的《数学之美》之后,我才知道马尔科夫在输入法等软件上的应用。翻译软件、搜索引擎、输入法软件,这些都是我们常常使用到的工具。有没有好奇过百度、谷歌是怎么把英文翻译成中文的?我们在打字的时候,输入前面的字,输入法是如何联想到后面的字的(而且正确率居然还这么高)?对于翻译软件,也许会觉

2015-06-13 10:03:04 1443 1

原创 遇到的多条件贝叶斯概率问题

在看论文的时候看到这样一个公式:注意这个式子里面的位置。我的第一反应是,这不对吧?思前想后,我决定推一推试试看。考虑一种简单的情况,如果事件与事件和事件是独立的。那么很显然可以看出,这个式子就变成了贝叶斯公式的基本形式:既然这种特殊情况是对的,那么有必要严肃的看一看当果事件与事件和事件不独立的时候,最上面的式子是否是对的。等式左边直接用条件概率公式展开:

2015-06-12 19:15:41 14003 1

原创 暴力拆解《Numerical Optimization》之共轭方向法

共轭梯度法是用来解决当为对称正定阵时,的问题。由矩阵理论的知识,我们可知若为对称正定阵,那么就是一个正规阵,由正规阵的性质可知,可以写成这样的形式:其中为矩阵的特征值,为相应特征值所对应的特征向量所组成的矩阵(已施密特正交化)。记:由于中的列向量已经施密特正交化过,所以各列向量之间是线性无关的,并且我们有:也就是说,与共轭。

2015-01-19 20:45:44 1155

原创 主成分分析法及特征值的含义

主成分分析法是一种非常适用,又相对简单的数据处理的方法。它是利用降维的方法,将数据表示的信息的主要成分提取出来,所以叫做主成分分析法。 从它的作用可以看出来,它的运用非常的广泛: 1. 显而易见,由于它可以提取主要的信息成分,所以它可以用来过滤掉信号的噪声。2.它可以用于合并特征。当有一些信息相关性非常大的时候,我们可以用主成分分析法把它们合并成一个特征。3.它

2014-12-02 22:45:03 57975 4

原创 暴力拆解《Numerical Optimization》之器材准备(数学知识补充)

1.Jacobian矩阵和Hessian矩阵Jacobian矩阵:假设有,,那么,定义Jacobian矩阵为y对x的导数,为:特别的,当m = 1时,我们所得到的Jacobian矩阵为梯度(gradient):Hessian矩阵:Hessian矩阵为梯度对的二阶导,为:Hessian矩阵为对称矩阵。

2014-11-29 02:00:47 1825 2

原创 暴力拆解《Numerical Optimization》之信任域方法(下)——Dogleg(狗腿方法)

这一节,我们来介绍一下DogLeg方法。还记得模型函数吗:在Dogleg方法中,要求模型函数中的B必须是正定矩阵。至于为什么,先卖个关子,学完之后你自然就明白了。现在我们正式开始学习吧~:由于B是正定矩阵,那么,有前面几篇博客的介绍可知,在无约束条件下,模型函数的极值在点取到。那么,1.,那么,由上面的讨论可知。2.那么,当&space;\bigtr

2014-11-29 01:55:24 4378 1

原创 暴力拆解《Numerical Optimization》之信任域方法(下)——柯西点

虽然《Numerical Optimization》这本书的作者认为,信任域方法和线搜索方法的主要区别在于:线搜索方法是先确定方向,后计算步长;信任域方法是先计算步长,后确认方向。但是我并不这样认为。由上面的介绍我们可以看出,信任域方法在确定好信任域大小后,也是要调整的长度的,所以我并不认为信任域方法是先计算步长,后确认方向。如有觉得上面有错误,或者有疑问,请评论,我们一起

2014-11-13 21:01:02 3197 1

原创 暴力拆解《Numerical Optimization》之信任域方法(上)

利用信任域方法来求解目标函数的极小值,也主要分为两步:1.确定信任域的大小2.计算

2014-11-10 21:21:55 1986

原创 暴力拆解《Numerical Optimization》之线搜索

123123

2014-11-06 04:33:57 1117 1

原创 暴力拆解《Numerical Optimization》之器材准备

这将是一篇连载。我将在上面记录我

2014-11-06 03:04:34 1674

川川教我写bower.json

bower里面存的是一些依赖 在有修改了bower.json之后,在命令行里输入bower install,即可安装这些依赖 { "name":"pollyanna", //这个名字就是项目名字,自己取 "version":"0.0.1", //这个是项目版本号,也是自己取 "dependencies":{ //依赖,重头戏 }}  现在...

2014-10-28 15:47:14 141

原创 Java创建实例对象的过程

public class Car{} 在声明了一个类之后,我们可以通过通过这个类,创建一个实例对象。创建对象一共有三步:声明:声明一个对象,包括对象的名称和对象的类型。实例化:用关键字new来创建一个对象。初始化:使用new来创建对象时,会调用构造方法初始化对象。 举个栗子:Car Porsche = new Car(); 在这个语句里面,Car...

2014-10-18 20:00:27 804 1

原创 一些零散的,和http相关的知识

一个简单的http服务器var http = require('http'); //请求http模块http.creatServer(function(request,response){ //createServer启动服务器 response.writeHead(200,{'Content-Type':'text/plan'}); ...

2014-10-16 11:18:25 102

我学MongoDB

 MongoDB是一个非关系型数据库,与传统的关系型数据库相比,它具有操作简单、完全免费、源码公开、随时下载等特点。MongoDB很好的实现了面向对象的思想(OO思想),在Mongo DB中每一条记录都是一个Document对象。 那什么是Document呢?多个键及其关联的值放在一起就是文档。在mongoDB中使用一种类似于json的bson存储数据。Bson数据可以理解为在js...

2014-10-15 23:13:54 108

我学js函数

很酷的一个东西——函数的自定义属性    函数也是一个对象,它也可以拥有属性。比如当我们在调用函数时,希望能保存一些变量,在每次调用这个函数的时候都能用上,这个时候我们就可以定义一个函数属性。 /*这是一个计算阶乘的函数。*/function factorial(n) { if(!(n in factorial)){ factorial[n] = factorial(...

2014-08-24 17:52:16 96

jQuery学习

         在学习jquery的之前,首先要知道什么是DOM。DOM(Document Object Model),它是由浏览器建立的一个树状结构,方面我们用js寻找html中的元素。在Dom里,html元素以节点(<-我自己的翻译nodes)的形式相互关联起来。当我们在浏览器中输入一个url的时候,浏览器会去寻找这个url所对应的html文件,然后把它加载到Dom中去,如...

2014-08-22 14:32:02 137

马克一个我常写代码的改进方法。

var len = undefined;if(book){    if(book.title){        len = book.title.length;    }}---------下面这种方法更简洁。var len = book && book.title && book.title.length;...

2014-08-22 11:46:49 123

原创 我学对象

对象的操作和别的数据类型不一样,我们通过引用来操作对象。这样说可能有点抽象,给个例子吧var x = {name : 'Anna', age : 12};var y = x;y.age = 22;console.log(x.age); -->22因为y是对x对象的引用,所以对y的操作,会改变x的值。  对象属性的引用.和[]都能够对对象的属性进...

2014-08-22 11:45:19 92

用对象替换if-else语句的意义

var choose = { start: game.start; over : game.over;}var x = "start";choose[x](); ---------------------------相当于:if( x == start){ game.start();else{ game.over();...

2014-08-20 11:48:44 510

测试驱动开发TDD(Test Driven Development)和jasmine

测试驱动开发是一个循环过程。这个循环主要由三个部分组成,三个步骤:Red->Green->Refactor->Red->Green->Refactor……(即:失败->通过->重构->失败->通过->重构->……)    他的具体过程是:    1.我们在写代码之前,先根据需求把测试先写好,然后运行测试,这时出现Red(我以前觉得这...

2014-08-17 17:28:04 1067

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除