2016年11月_miaote

原创求最小函数依赖以及结果为3NF的保持函数依赖分解---Java实现

最近看到的《数据库原理及应用》的两个关于关系模式的算法，稍微实现了一下。我的思路差不多都写在注释里了，就先上代码吧：import org.omg.PortableInterceptor.SYSTEM_EXCEPTION;import javax.lang.model.type.ArrayType;import javax.lang.model.util.SimpleTypeVisit

2016-11-30 17:01:16 1767

原创 Spark上提交运行简单WordCount程序---Spark学习笔记(1)

其实这个时候应该继续学习hadoop的，但是猛然发现目前的需求是spark，不过spark可以基于hadoop运行。目前使用的spark版本是:spark-1.6.2-bin-hadoop2.6 运行Spark简单程序的思路是现在IDE上导入spark API包并写好scala程序，然后像写Hadoop MapReduce程序一样，导出做成jar包，接下来用spark-submit提交jar包

2016-11-18 12:10:37 1269

原创 Scala的数据类型、对象、控制结构、函数和闭包---Scala学习笔记(2)

继续上次的学习 1.数据类型Scala的常用的基本数据类型： Byte 8 位有符号补码整数(-2 ~2 -1) Short 16 位有符号补码整数(-2 ~2 -1) Int 32 位有符号补码整数(-2 ~2 -1) Long 64 位有符号补码整数(-2 ~2 -1) Char 16 位无符号Unicode字符(0~2 -1) String

2016-11-15 20:28:15 430

原创 scala中的函数、变量、集合、对象---scala学习笔记(1)

最近正在尝试接触spark，那么不可避免地就要用到scala，虽然spark同时也支持java，但是通过阅读spark上的例程上发现，往往scala的代码相比较java而言更加简短，而且也更加清晰。所以决定试一试简单地学习一下scala。使用的书籍是《Scala编程》，篇幅不长但是力在突出Scala自身的特性而且对Java和scala做了比较。 1.变量的定义

2016-11-14 21:45:31 424

原创最坏情况为线性时间的选择算法---算法导论学习笔记(2)

前面学习了在期望时间内选择任意顺序统计量，这次就运用这种顺序统计量的选择去实现线性时间的选择。 1.算法概述 1.将集合分成ceil(n/5)个组，即每个组中的元素都为5，最后一组元素数量为n mod 5 2.对每个组分别使用插入排序，并寻找出每个组的中位数。 3.每个组的中位数形成数量为ceil(n/5)的集合，在此集合内再求其中位数，即中位数的中位数，记

2016-11-08 21:46:47 3059 1

原创浅解MapReduce与简单MapReduce程序出包---Hadoop学习笔记(2)

浅略理解MapReduce的概念机制是开始真正使用Hadoop开发Mapreduce程序的第一步，是一个充分条件。理解和实践并进才能让更多的问题暴露对理论的理解的不够。继续学习《Hadoop基础教程》。 1.Map与Reduce Hadoop将数据分成不小于64MB的块，因此每个数据块都有一个对应的键，而数据块就作为值，由此形成键值对，就是所说的Map，映射。Reduce将M

2016-11-06 12:08:17 433

原创中位数和顺序统计量---算法导论学习笔记

算法导论断断续续看了一小部分，但是还没有写过总结和笔记，很多思考和学习到的东西都随着时间流失掉了（痛心）。下面进入正题： 1.最大值和最小值问题最简单的确定一个有n个元素的集合中最小元素（最大元素）的方法就是所谓“打擂台”的思路。遍历集合，过程中将每个元素与现在所持有的最小元素进行比较，如果该元素小于现有最小元素则更新最小元素为该元素，否则继

2016-11-05 21:05:28 862

原创初识Hadoop及其名词解释---Hadoop学习(1)

今天开始学习hadoop的基本机制和基础知识，之前也迷迷糊糊在Ubuntu上配置过hadoop但是根本不懂很多配置参数和操作的原因，所以此次学习旨在真正地认识hadoop以及会它的一些用法。至少要知道我们用的所谓分布式计算工具，到底是什么，又由什么组成？用的书是《Hadoop基本教程》，感觉作者写的详细又不难懂。 1.元素组成 (1).HDFS(Hadoop Dist

2016-11-04 01:10:53 5636

miaote的博客