- 博客(8)
- 收藏
- 关注
原创 求最小函数依赖以及结果为3NF的保持函数依赖分解---Java实现
最近看到的《数据库原理及应用》的两个关于关系模式的算法,稍微实现了一下。 我的思路差不多都写在注释里了,就先上代码吧:import org.omg.PortableInterceptor.SYSTEM_EXCEPTION;import javax.lang.model.type.ArrayType;import javax.lang.model.util.SimpleTypeVisit
2016-11-30 17:01:16 1767
原创 Spark上提交运行简单WordCount程序---Spark学习笔记(1)
其实这个时候应该继续学习hadoop的,但是猛然发现目前的需求是spark,不过spark可以基于hadoop运行。 目前使用的spark版本是:spark-1.6.2-bin-hadoop2.6 运行Spark简单程序的思路是现在IDE上导入spark API包并写好scala程序,然后像写Hadoop MapReduce程序一样,导出做成jar包,接下来用spark-submit提交jar包
2016-11-18 12:10:37 1269
原创 Scala的数据类型、对象、控制结构、函数和闭包---Scala学习笔记(2)
继续上次的学习 1.数据类型Scala的常用的基本数据类型: Byte 8 位有符号补码整数(-2 ~2 -1) Short 16 位有符号补码整数(-2 ~2 -1) Int 32 位有符号补码整数(-2 ~2 -1) Long 64 位有符号补码整数(-2 ~2 -1) Char 16 位无符号Unicode字符(0~2 -1) String
2016-11-15 20:28:15 430
原创 scala中的函数、变量、集合、对象---scala学习笔记(1)
最近正在尝试接触spark,那么不可避免地就要用到scala,虽然spark同时也支持java,但是通过阅读spark上的例程上发现,往往scala的代码相比较java而言更加简短,而且也更加清晰。所以决定试一试简单地学习一下scala。 使用的书籍是《Scala编程》,篇幅不长但是力在突出Scala自身的特性而且对Java和scala做了比较。 1.变量的定义
2016-11-14 21:45:31 424
原创 最坏情况为线性时间的选择算法---算法导论学习笔记(2)
前面学习了在期望时间内选择任意顺序统计量,这次就运用这种顺序统计量的选择去实现线性时间的选择。 1.算法概述 1.将集合分成ceil(n/5)个组,即每个组中的元素都为5,最后一组元素数量为n mod 5 2.对每个组分别使用插入排序,并寻找出每个组的中位数。 3.每个组的中位数形成数量为ceil(n/5)的集合,在此集合内再求其中位数,即中位数的中位数,记
2016-11-08 21:46:47 3059 1
原创 浅解MapReduce与简单MapReduce程序出包---Hadoop学习笔记(2)
浅略理解MapReduce的概念机制是开始真正使用Hadoop开发Mapreduce程序的第一步,是一个充分条件。理解和实践并进才能让更多的问题暴露对理论的理解的不够。继续学习《Hadoop基础教程》。 1.Map与Reduce Hadoop将数据分成不小于64MB的块,因此每个数据块都有一个对应的键,而数据块就作为值,由此形成键值对,就是所说的Map,映射。Reduce将M
2016-11-06 12:08:17 433
原创 中位数和顺序统计量---算法导论学习笔记
算法导论断断续续看了一小部分,但是还没有写过总结和笔记,很多思考和学习到的东西都随着时间流失掉了(痛心)。 下面进入正题: 1.最大值和最小值问题 最简单的确定一个有n个元素的集合中最小元素(最大元素)的方法就是所谓“打擂台”的思路。遍历集合,过程中将每个元素与现在所持有的最小元素进行比较,如果该元素小于现有最小元素则更新最小元素为该元素,否则继
2016-11-05 21:05:28 862
原创 初识Hadoop及其名词解释---Hadoop学习(1)
今天开始学习hadoop的基本机制和基础知识,之前也迷迷糊糊在Ubuntu上配置过hadoop但是根本不懂很多配置参数和操作的原因,所以此次学习旨在真正地认识hadoop以及会它的一些用法。至少要知道我们用的所谓分布式计算工具,到底是什么,又由什么组成?用的书是《Hadoop基本教程》,感觉作者写的详细又不难懂。 1.元素组成 (1).HDFS(Hadoop Dist
2016-11-04 01:10:53 5636
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人