2015年10月_竹落

原创机器学习理解(五)

7.Apriori算法---无监督学习Apriori算法是关联规则挖掘算法中用的比较早的算法，事物和事物之间通常存在一定的联系，关联规则挖掘的目的就在于从在大量的数据项中发现隐藏着的联系或者相关性，揭示数据项间的依赖关系，如用户去超市购买啤酒的同时也会选择购买花生，那么啤酒和花生之间就形成了一定的关联关系Apriori算法的基本步骤如下：1.生成1-项候选项集；2.生成1-项频繁项

2015-10-30 17:25:57 546

原创机器学习理解(四)

5.KNN分类---有监督学习KNN即K近邻分类，它的基本思想就是找到与待分类样本最近的K个样本，在这K个样本中，哪个类别所包含的样本数最多，则待分类样本就属于哪一类基本步骤：1.分别求得待分类样本与训练样本的距离；距离的求法有欧式距离，马氏距离等，且分类样本是用向量进行表示的，分类样本的属性个数即为向量的维度2.对距离进行排序；3.选取距离值最小的K个样本；4.K个样本进

2015-10-29 17:32:31 897

原创机器学习理解(三)

今天插播下逻辑线性回归的一些知识，其实之前对这部分的内容还未太在意，后来实习以及找工作的过程中都碰到这个问题，就写下吧。。在这之前先扯点其他的。。当正负样本不均衡时，可以采取样本重构的方法，如重采样，在正样本及其K邻近范围之内的样本之间线性插值(y = y0 + α(y1 - y0),x=x0+α(x1 - x0),α=(x-x0)/(x1-x0))，得到新的样本，这样正样本数就会

2015-10-28 18:47:58 536

原创机器学习理解(二)

3.神经网络分类器----有监督学习神经网络就是模仿人类大脑神经元工作方式的一种机器学习方法，同时它也是深度学习中的一个比较热门的知识点神经网络总共分为三层：输入层，隐藏层，输出层，每一层都是由若干个神经单元组成的输入层：事件有几个属性，该层就有几个神经元，即每一个属性对应一个神经元，神经元即为每个结点，结点的值即为相应属性的值输出层：有几个分类该层就有几个神经元，即每一个分类

2015-10-27 17:48:03 464

原创机器学习理解(一)

Spark这部分写完了，忽然发现自己没什么可写的了。。。还是把机器学习这部分写下，虽然有关机器学习的博客有很多，而且有的博客写的真的很好，但还是想将自己在学习机器学习时的一个理解记录下来，可能存在许多不足，因此如果有了新的理解，我会进行更新，当然，更加希望的是能借助之后在工作中的一些经验来逐步完善这方面的知识。。1.分类决策树---有监督学习分类决策树是一棵自上而下的树，用来进行预测，分支

2015-10-26 17:47:44 560

哈哈。。。终于把Spark这部分的源码写完了，讲得这几个部分中当然会有很多不足或者说不正确的地方，因此希望各位网友积极指正。。。学习Spark纯属个人兴趣爱好，学习的过程中也是很枯燥的，特别是在阅读源码的过程中，同时因为Spark刚刚兴起，关于Spark的书籍，资料并不是很齐全，因此在学习的过程中碰到问题就只能从网上寻找帮助了，不过，整个过程我还是收获颇多，至少，在以后的学习过程中我可以保持踏实，

2015-10-23 17:23:40 459

原创 (九)Spark应用程序在不同部署模式下的运行方式

我们知道Spark可以运行在不同模式下，这样的话当我们提交程序给Spark集群时就要修改相应的参数设置，在Spark学习的最后，我总结了几种常用模式下的运行命令(在Linux下运行) PS:下文提到过的jar包是这样来的，我是在Windows下的eclipse中用scala语言编写的程序，所以我把程序导出为一个jar包，之后再传到Linux中相应的目录下yarn模式：./bin/spar

2015-10-16 17:41:12 1050

原创 (八)Spark源码理解之DAGScheduler---part3

讲讲自己对于ShuffleMapTask和ResultTask的区别简单来说两者都是Task类的子类，不同的是操作类型，前者的操作类型是MapStaus类，是在shuffle map stage生成的，后者的操作类型是数据，是在final stage生成的，多说一句，所谓的Spark基于内存存储中间数据应该就是存储MapStatus（分区的映射状态），鉴于它们都是Task类的子类，因此

2015-10-15 17:39:36 490

原创 (八)Spark源码理解之DAGScheduler---part2

承接上篇博文所述，接下来我对getShuffleMapStage以及newStage这两个方法的代码进行主要的介绍getShuffleMapStage：该方法主要是通过调用newOrUsedStage生成stageprivate def getShuffleMapStage(shuffleDep: ShuffleDependency[_,_], jobId: Int): Stage =

2015-10-14 17:39:51 443

原创 (八)Spark源码理解之DAGScheduler---part1

DAGScheduler是Spark中另一比较重要的部分，它属于高级调度，主要实现stage的划分，接着生成整个DAG图，以及如何为每个stage生成任务集，并且将任务集提交给TaskScheduler，基于这两点我将对DAGScheduler的源码展开阅读，下图是DAGScheduler的简单构成图：在讲述DAGScheduler之前，先介绍DAGScheduler中几个重要的变

2015-10-13 17:48:17 542

原创 (七)Spark源码理解之TaskScheduler----part6

恩。。。。由于最近这段时间都在实习以及找工作，因此就将博客给落下了，现在继续将spark的部分"搬上"。。PS:虽然我自己也忘得差不多了。。4.ExecutorExecutor类完成任务的装载，任务的运行等功能，它有个变量为ExecutorSource对象，这个对象主要实现注册executor的各项资源，在此省略不讲，此外Executor类有个核心方法launchTask()，该方

2015-10-12 17:35:34 541

天天向上