- 博客(35)
- 资源 (4)
- 收藏
- 关注
原创 数据挖掘 决策树算法 ID3 通俗演绎
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的
2014-06-06 18:01:52 1900 1
原创 sqoop使用
sqoop 是进出hadoop的重要工具。 用sqoop从RDBMS中导入数据sqoop import \ -D oozie.job.id=$wf_job_id \
2014-03-25 15:03:13 2172
原创 栈,队列,并查集等算法工具实现(3)
接上,并查集是处理合并问题有力的工具,读者自己百度,参考 Kruskral算法寻找最小生成树中的应用并差集的实现:package lee.tools;public class UF { int[] id; int[] size; public int count;//初始化 每个元素自己是一个集合 public UF(int n){ id = new int[n]; s
2013-12-23 15:31:30 1158
原创 栈,队列,并查集等算法工具实现(1)
最近总有朋友问我,为什么写的算法使用的是lee.tools包下的栈和队列。 为了好玩啊,JAVA是有一套集合框架,实现了栈,队列,集合,优先队列等常用的数据结构,但为了掌握这些工具的使用,最好的方法就是自己写一套。公布一下lee.tools的代码
2013-12-23 10:29:18 1068
原创 哈夫曼树(Huffman Tree) 实现
用所有的输入节点建立一个小根堆。两次出堆,两个最小的元素, 将其合并为新的二叉树。然后入堆。直到堆中只有一个元素。改元素为Huffman树的根. 我还没用写用字符拼凑树的画面的程序。 暂时用后续遍历和层次遍历输出我们的huffman树吧。
2013-12-09 17:13:02 2117
原创 拓扑排序--关键路径实现
关键路径算法 前面部分是拓扑排序算法。 为了好玩, 我在关键路径算法中用 队列替换了工作栈。getFirstPro(v);getNextPro(v, w)这一对方法很奇怪吧。getFirstPro(v);其实是有向图v节点的第一个前驱节点同理getNextPro(v, w)是v节点对相对w节点的下一个前驱节点。 Matrix实现的图还好。 邻接表实现,如果没有逆邻接表,时间复杂度对会上来。我就没有写逆邻接表。曾经认为逆邻接表没啥用。图大了还是需要空间换取时间的在Ma
2013-12-06 16:46:13 1949 2
原创 图上常用的算法集合
上篇 介绍了图的常用API 和实现了 图的两种方式下面完成图的常用算法图的遍历 ——》深度优先 广度优先最小生成树——》 Prim算法 Kruskral算法图的最短路径 --> Dijstra 算法 Floyd算法图的拓扑排序package lee.graph;import lee.tools.CircleQueue;import lee.tools.L
2013-11-27 16:52:11 867
原创 图的API及其两种实现(邻接矩阵,邻接表 )
常见的实现有 邻接矩阵法 和邻接表法。 注意图上的算法 和图本书的存储方式是无关的, 很多书都没有严格区分这一点。图上的算法 比如 最小生成树 最短路径 遍历 拓扑排序等,仅依赖与API而不是图的具体实现。后续的文章会给出图上的常用算法。
2013-11-27 16:27:04 1149
原创 二叉树括号表示的反序列化
(1(2(4)())(3(6)()))可以表示一颗二叉树如下图:将其反序列化, 从硬盘读入导入内存。这样方便我们练习二叉树的各种算法。这次算法本书对二叉树的递归性, 栈的在括号匹配中的使用 亦是非常好的练习案例package lee.tree;import java.io.BufferedReader;import java.io.FileInputStr
2013-11-27 15:46:08 2960 2
原创 主要内排序算法排序算法,平台,实现
实现一个类,产生随机数、统计排序时间package lee.sort;import java.util.Random;public class SortPlatform { int size; int arr[]; Sort sort; Random random; public SortPlatform(int length){ random = new Ra
2013-11-27 11:49:42 984
原创 小根堆 JAVA实现,真正的堆排序是怎么样炼成的
真正的堆排序是啥样的? 堆又称优先队列,非常重要的数据结果。能在logn复杂度中在n中找到最大(最小)
2013-11-12 16:55:54 2286 1
转载 hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。
2013-11-11 17:30:13 907
原创 Floyd算法求最短路径,JAVA实现
import java.io.FileInputStream;import java.io.FileNotFoundException;import java.util.Scanner;public class TestMainIO { /** * @param args * @throws FileNotFoundException */ public static
2013-11-07 14:33:03 6237
原创 Hive 典型的中表内数据除重写法
insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number()over(distribute by p_key sort by sort_word) as rn from store) t
2013-11-04 16:12:08 11361 3
原创 hive 大数据 除重问题研究
存量表: store增量表: incre 字段:1. p_key 除重主键2. w_sort 排序依据3. info 其他信息方法一(union all + row_number()over ):insert overwrite table limao_store select p_key,sort_word from (
2013-11-04 15:03:32 2478
翻译 系统学习hive programming,第五章,操作数据
/** Lee 2013.11.14翻译 《programming hive》 第五章节HiveQL: Queries */ 第五章 数据操作 Hive不允许行级别操作,数据只能被批量导入。加载数据示例:LOAD DATA LOCAL INPATH '${env:HOME}/califo
2013-10-14 14:07:54 1486
翻译 系统学习hive programming,第四章----表和数据库定义
/** Lee 2013.11.12翻译 《programming hive》 第四章节 Getting Started @page表示 翻译原文页码*/@page 49 Hive 提供一种名为HSQL的方言, 不参考 ASCII SQL标准。 Hive不支持行级修改,故而在HSQL中没有insert , update,delete关键字。 总体来看HSQL和My
2013-10-12 18:15:19 4903
翻译 系统学习hive programming,第三章----数据类型,见表
/** Lee 2013.11.11翻译 《programming hive》 第三章节Data Types and File Formats @page表示 翻译原文页码*/@@ page41Hive支持常见的基础关系型数据库类型,同时还支持集合类型(collection data types) Hive支持的基础数据类型====
2013-10-11 17:18:29 2831
翻译 系统学习hive programming,第二章---使用Hive CLI命令
/** Lee 2013.11.11翻译 《programming hive》 第二章节 Getting Started @page表示 翻译原文页码*/@@page 29使用 hive --help可以看到hive所有命令行功能 代码清单======================================
2013-10-11 15:32:08 5250
转载 一些有用的连接合编
计算机专业学习浅谈http://kb.cnblogs.com/page/186346/Linux GCC常用命令http://www.cnblogs.com/ggjucheng/archive/2011/12/14/2287738.html字符串匹配的KMP算法http://kb.cnblogs.com/page/176818/GDB十分
2013-09-05 17:41:07 922 15
原创 快速排序, 传统递归实现, 非递归实现
//传统递归方法实现void swap(int *a , int *b){ int temp = *a; *a = *b; *b = temp;} //划分函数int partition(int *arr , int left, int right){ int key = arr[left]; while(left<right){ while(arr[le
2013-07-02 16:32:25 930
原创 C语言内存布局
结合下面代码 讲解======================函数(程序自身) fun1() = 0x102546610 fun2() = 0x102546650 字符串常量 string=0x102546e28======================静态变量函数内加 static的变量fun1_static=0x1025470a
2013-06-09 21:54:54 534
原创 C语言 变量作用预完全分析
C语言 变量作用分析:代码见下图, 局部变量只能在它声明的语句块({}里面)起作用,过了}空间释放。所有声明加了 static 关键字的变量 如s1 s2,则可以在整个文件都能访问, 但不能被外部访问。声明在函数外面的变量,例如 global可以在它后面的任何代码你访问。例如下面代码中将 int global 改写到代码最后,main(){...} int global,程序报错主函
2013-06-09 19:37:04 637
原创 C语言指针未初始化情况
#include#include#includetypedef struct node Node,*P_Node;struct node{ int data; P_Node next; int *p2int;};int main(void){ int a; int *p_int; Node node;
2013-06-09 14:44:11 3608
转载 LINUX命令简写
LINUX命令简写bin = BINaries/dev = DEVices/etc = ETCetera/lib = LIBrary/proc = PROCesses/sbin = Superuser BINaries/tmp = TeMPorary/usr = Unix Shared Resources/var = VARiable ?
2012-10-22 12:44:56 652
原创 javascript基础学习
javascritp原始类型放在栈上,对象放在堆NumbertruenullObject(地址)字符串typeof 运算符typeof 运算符有一个参数,即要检查的变量或值。例如:var sTemp = "test string";alert (typeof sTemp); //输出 "string"alert (typeof 86); //
2012-06-02 18:14:07 343
原创 JAVA对象创建执行顺序实验
public class MM{static{System.out.println("这是static 模块CCC");init();}private static void init(){System.out.println("这是 init() 函数");}MM(){System.out.println("这是构造函数");}public sta
2012-05-29 22:45:25 382
转载 Java线程:创建与启动
Java线程:创建与启动一、定义线程 1、扩展java.lang.Thread类。此类中有个run()方法,应该注意其用法:public void run()如果该线程是使用独立的 Runnable 运行对象构造的,则调用该 Runnable 对象的 run 方法;否则,该方法不执行任何操作并返回。Thread 的子类应该重写该方法。2、实现
2012-05-26 22:41:14 473
转载 Java线程:概念与原理
Java线程:概念与原理 一、操作系统中线程和进程的概念现在的操作系统是多任务操作系统。多线程是实现多任务的一种方式。进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程中可以启动多个线程。比如在Windows系统中,一个运行的exe就是一个进程。线程是指进程中的一个执行流程,一个进程中可以运行多个线程。比如java.exe进程中可
2012-05-26 22:38:10 336
原创 MyLineNumberReader, a implemention of java.io.LineNumberReader
this is a demo to help understant decorator design patternsMyLineNumberReader, a implemention of java.io.LineNumberReader
2012-05-03 00:27:11 410
原创 对java IO BufferedWriter 使用的演示
import java.io.*;/* 对java IO BufferedWriter 使用的演示*/class BufferedDemo{ static BufferedWriter bw; static FileWriter fw; public static void main(String[] args){ try{ fw = new FileWr
2012-05-01 15:15:43 419
原创 how set java en
Apr 24, 20122:47:24 PM: daiyiy@cn.ibm.com - Yi Yang YY Dai/China/Contr/IBM: Download the jdk file e.g. jdk.tgz tar zxvf jdk.tgz to extract the tgz file Change to root user Create a ne
2012-04-26 12:30:22 356
原创 tar压缩解压命令
tar压缩解压命令tar-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。-z:有gzip属性的-j:有bz2属性的-Z:有compress属性的-v:显示所有过程-O:将
2012-04-26 12:17:36 467
原创 设计模式学习笔记
1.简单工厂模式2.策略模式 3.单一职责原则 就一个类而言,应该仅有一个引起它变化的原因 4.开放-封闭原则 就是对软件实体(类,模块,函数等)应该可以扩展,但是不可以修改, 无论模块是多么的“封闭”,都会存在一些无法对之的封闭的变化。 既然不可能完全封闭,设计人员就必须对他设计的模块应该对哪种变化封闭做出选择。 他必须
2011-12-11 21:38:41 333
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人