2015年05月_Findss

原创 MYSQL CAST

create table table2 as select a,b,cast(c as bigint) as d from table1;

2015-05-31 11:50:33 468

原创台大机器学习听课笔记---RF 10-3 Feature Selection

Feature Selection从庞大的特征集合中筛选特征(例如1W维选出300维)----来剔除掉：冗余，无关的特征。这样做的好处：1. 不管训练还是测试都是在那300维上，提高效率。2. 排除掉了其他9700维的"noise".从而不容易overfit.3. 可解释性缺点：1. 1W维选出300维，在计算上要花很大的力

2015-05-30 11:37:19 674

原创台大机器学习听课笔记---RF 10-2 Out-Of-Bag Estimate

OOB：列gi为从已有的资料中选出的一部分，行（Xi，Yi）为资料元数据。矩阵中红星代表未选中，Di代表被gi选中.

2015-05-29 22:22:46 1821

原创台大机器学习听课笔记---Bagging 7-4

目的：用同一份资料制造出很多不同的小矩。用手上的资料生出长的像“新鲜”的资料。------------------------------------------------------------------------------------------------------------------------------------------做法：从手

2015-05-29 16:36:53 498

转载线性时间复杂度求数组中第K大的数

算法思想基于快速排序，详细步骤如下：1. 随机选择一个分割点2. 将比分割点大的数，放到数组左边；将比分割点小的数放到数组右边；将分割点放到中间(属于左部分)3. 设左部分的长度为L，当K 当K > L时，递归地在右部分中找第(K - L)大的数当K = L时，返

2015-05-29 11:50:10 1237

原创台大机器学习听课笔记---Random Forest 10-1

台大机器学习听课笔记---Random Forest

2015-05-25 21:24:59 684

转载过拟合产生的原因和预防

1，什么是过拟合(overfitting)简单的说就是这样一种学习现象：Ein 很小，Eout 却很大。而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题。上图中，竖直的虚线左侧是"underfitting", 左侧是"overfitting”。发生overfitt

2015-05-21 17:16:29 4156

原创对偶（数学）

线性规划问题中的(P)　min f = c'x Ax≥b 且c'≥0(D) max g = y'b y'A≤c' 且y'≥0问题 (P) (D)互为对偶问题对偶问题　每一个线性规划问题都伴随有另一个线性规划问题，称为对偶问题。原来的线性规划问题则称为原始线性规划问题，简称原始问题。对偶问题有许多重要的特征，它的变量能提供关于原始问题最优解的许多重要资料，有

2015-05-21 15:49:34 2034

转载支持向量机（SVM）的详细推导过程及注解

原文地址:http://blog.sina.com.cn/s/blog_4298002e010144k8.html 支持向量机（SVM）的详细推导过程及注解

2015-05-21 15:13:49 534

原创 ‖ 　‖ 范数

‖ 　‖ 这个符号叫做范数,它事实上是由线性赋范空间到非负实数的映射在线性赋范空间中,它可以表示空间中的点与原点间的距离,两点间的距离也是用两点之差的范数来表示的范数所满足的条件有：（1）||x||>=0,且||x||=0当且仅当x=0（2）||ax||=|a|*||x|| 其中a为线性空间对应的数域中的数（3）||x+y||

2015-05-21 15:03:39 1743

原创凹函数与凸函数

定义：设函数f(x)在区间I上定义，若对I中的任意两点x1和x2,和任意λ∈(0,1)，都有 f(λx1+(1-λ)x2)则称f(x)是I上的凹函数。若不等号严格成立，即"如果"="就是凸函数。类似也有严格凸函数。这个定义从几何上看就是：在函数f(x)的图象上取任意两点，如果函数图象在这两点之间的部分总在连接这两点的线段的下方，那么这个函数就是凹函数。

2015-05-21 11:54:18 10021 5

转载监督学习与无监督学习

在机器学习(Machine learning)领域，主要有三类不同的学习方法：监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning)，监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。非监

2015-05-21 11:28:14 2107

转载 KMP算法的JAVA实现

1.寻找最长前缀后缀如果给定的模式串是：“ABCDABD”，从左至右遍历整个模式串，其各个子串的前缀后缀分别如下表格所示：也就是说，原字符串对应的各个前缀后缀的公共元素的最大长度表为（下简称《最大长度表》）：2.根据《最大长度表》求出next 数组由上文，我们已经知道，字符串“ABCDABD”各个前缀后缀的最大

2015-05-20 11:01:00 417

原创堆排序的JAVA实现和性能分析

package Sort; import java.util.Arrays; public class heapsort { private static int parentIdx(int childIdx) { //返回父节点下标 return (childIdx - 1) / 2; //索引从0开始, 注意childIdx=0时返回0

2015-05-18 17:28:26 430

原创归并排序的JAVA实现和性能分析

package Sort;//稳定public class mergesort { public static void main(String[] args) { int[] a={49,38,65,97,76,13,27,49,78,34,12,64,1,8}; System.out.println("排序之前："); for (i

2015-05-15 15:57:52 435

原创快速排序的JAVA实现和性能分析

package Sort;//快速排序是不稳定的排序。//快速排序的时间复杂度为O(nlogn)。//当n较大时使用快排比较好，当序列基本有序时用快排反而不好。public class quicksort { //主函数（就一个sort方法，其他都是输出操作） public static void main(String[] args) { int[] a=

2015-05-13 11:50:44 403

转载 JAVA中数据类型的互相转换

数据类型的互相转换数据类型位长取值范围byte8-128---127short16-32768---32767int32-2147483648---2147483647long64

2015-05-09 19:19:21 356

原创正则表达式利器之\\W

String s1="2013-12-11 01";String s2="2018-11-13 02";String [] str1=s1.split("\\W");String [] str2=s2.split("\\W");System.out.println(str1.length+" "+str2.length);for(int i=0;i<4;i++) System.out.

2015-05-09 18:53:21 946

原创 JAVA中比较两个字符串

字符串类型日期比较时会用到。有三种方法实现第一种直接用字符串类的compareTo方法：123 String t1="20131011"; String t2="20131030"; int result = t1.compareTo(t2);第二种是把这个日期字符串转

2015-05-08 17:53:28 989

原创 JAVA中容器和数组的比较

JAVA的容器---List,Map,Set Collection ├List │├LinkedList │├ArrayList │└Vector │　└Stack └Set Map ├Hashtable ├HashMap ├TreeMap └WeakHashMap

2015-05-08 10:55:30 942

原创四种归一化方法

1、线性函数转换，表达式如下：　　　　y=(x-MinValue)/(MaxValue-MinValue)　　2、对数函数转换，表达式如下：　　　　y=log10 (x)　　3、反余切函数转换，表达式如下：　　　　y=arctan(x)*2/PI　　4、减去均值，乘以方差：　　　　y=(x-means)/ variance

2015-05-07 15:36:32 4205

原创《数据挖掘-概念与技术》之数据预处理

！

2015-05-06 16:30:21 444

findsd1989的专栏