Mercy007-CSDN博客

原创大数据十大算法

一、C4.5C4.5，是机器学习算法中的一个分类决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有：1、用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，这里可以用很多方法来...

2018-04-25 10:29:50 1890

原创 RDD的5大特点

1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。每个分配的存储是由BlockManager实现的，每个分区

2018-01-08 09:55:16 8151

原创什么是spark中的累加器和广播变量？

在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变（broadcast variable）和累加器（

2018-01-08 09:49:25 499

转载 Spark 中算子功能与分类介绍

1. value型算子从输入到输出可分为一对一（包括cache）、多对一、多对多、输出分区为输入分区自激 1)一对一， map,简单的一对一映射，集合不变； flatMap，一对一映射，并将最后映射结果整合； mappartitions,对分区内元素进行迭代操作，例如过滤等，然后分区不变 glom,将分区

2017-12-11 09:15:41 708

转载 Spark 常用算子

常用的执行算子action：1.reduce:将我们传入的值进行一个一个的加和然后返回最终一条语句2.collect:将RDD中所有元素获取到本地客户端3.count :统计有几个元素，获取RDD元素总素4.first 获取第一元素5.take:可以获取前几个元素6.top:可以获取前几个元素 take 与top的区别:take不会对元素进行排序而获取前几个元素，

2017-12-11 09:14:00 391

原创 scala/idea/java

intelij idea: Exception in thread "main" java.lang.ClassNotFoundExceptionhttp://www.cnblogs.com/do-better/p/5864165.html从网上搜了好多，大多是说，在类里边是不是没有main函数，而且强调了main函数的写法： public static void main(S

2017-11-21 11:41:27 222

原创数据仓库和数据库的区别

（1）数据库是面向事务的设计，数据仓库是面向主题设计的。（2）数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。（3）数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。（4）数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放

2017-11-20 23:58:15 340

转载大数据/spark

spark知识点的链接地址：http://blog.csdn.net/joker992/article/details/50043349

2017-11-20 09:03:52 306

原创 HBase内置过滤器的总结

1、RowFilter:筛选出匹配的所有的行eg：Filter rf=new RowFilter(CompareFilter.CompareOp.EQUAL,new BinaryComparator(Bytes.toBytes("row1")));//OK筛选出匹配的所有的行2、PrefixFilter:筛选出具有特定前缀的行健的数据Filter pf=new PrefixFi

2017-10-26 11:51:56 640

Mercy007的博客