2016年05月_suibianshen2012

12月 11月 10月 09月 08月 07月 06月 05月 04月

转载正则化详解

1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠拟合(underfitting)，或者叫作叫做高偏差(bias)。

2016-05-31 11:20:25 3299

转载梯度下降法详解

1 基本概念1）定义梯度下降法，就是利用负梯度方向来决定每次迭代的新的搜索方向，使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。最速下降法的一种简单形式是：x(k+1)=x(k)-a*g(k),其中a称为学习速率，可以是较小的常数。g（k）是x(k)的梯度。梯度其实就是函数的偏导数。2）举例对于函数z=f(x,y)，

2016-05-29 15:46:00 9680

转载最小二乘法以及最小二乘法和梯度下降法的区别

一、背景先看下百度百科的介绍：最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。通过这段描述可以看出来，最小二乘法也是一种优化方法，求得目标函数的

2016-05-29 14:33:58 10333 3

转载 Apriori算法简介---关联规则的频繁项集算法

由啤酒和尿布引出：在一家超市中，人们发现了一个特别有趣的现象：尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话，而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来，美国的妇女通常在家照顾孩子，所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来

2016-05-29 11:10:23 67793 3

转载机器学习算法汇总

学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习：在监督式学习下，输入数据被称为“训练数据”，每组训练数据

2016-05-29 10:24:55 558

转载 Adaboost 算法的原理与推导（笔记）

0 引言一直想写Adaboost来着，但迟迟未能动笔。其算法思想虽然简单“听取多人意见，最后综合决策”，但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午，邹博在我组织的机器学习班第8次课上讲决策树与Adaboost，其中，Adaboost讲得酣畅淋漓，讲完后，我知道，可以写本篇博客了。无心啰嗦，本文结合邹博之决策树与Adaboost 的PPT 跟《统计

2016-05-28 20:31:52 831

boosting方法有许多不同的变形。其中最流行的一种就是AdaBoost方法，这个名称是“adaptive boosting”的缩写。这个方法允许设计者不断地加入新的“弱分类器”，直到达到某个预定的足够小的误差率【便于通过扩展来提高分类效果】。在AdaBoost方法中，每一个训练样本都被赋予一个权重，表明它被某个分类分类器选入训练集的概率。如果某个样本点已经被准确分类，那么在构造下一个训练集中，

2016-05-28 20:11:31 662

转载 AdaBoost与随机森林简单区别

AdaBoost首先明确一个大方向：强可学习和弱可学习是等价的。所以，弱可学习方法可以提升为强可学习方法。AdaBoost最具代表性。对于提升方法，有两个问题需要回答：每一轮如何改变训练数据的权值或概率分布？如何将弱分类器组合成一个强分类器？AdaBoost的做法：提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。加权多数表决的方法

2016-05-28 19:48:40 7584

转载 Random Forest 随机森林

1 什么是随机森林？作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据

2016-05-26 08:59:36 2146

转载随机森林算法

1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络，有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a）

2016-05-26 08:36:04 2898

原创随机森林总结

1、什么是随机森林？随机森林是一种多功能的机器学习算法，能够执行回归和分类的任务。同时，它也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤，并取得了不错的成效。另外，它还担任了集成学习中的重要方法，在将几个低效模型整合为一个高效模型时大显身手。在随机森林中，我们将生成很多的决策树，并不像在CART模型里一样只生成唯一的树。当在基于某些属性对一个新的对象进行分

2016-05-25 23:07:33 4340

转载 Canopy聚类算法简介

一、概念与传统的聚类算法(比如K-means)不同，Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数)，因此具有很大的实际应用价值。与其他聚类算法相比，Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用Canopy聚类先对数据进行“粗”聚类，得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式

2016-05-18 10:33:01 2604

原创 Mahout安装与配置，及简单k-means实例

转自：http://blog.csdn.net/zzu09huixu/article/details/264427171：下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.9下载，我选择下载二进制包，直接解压及可。hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.

2016-05-17 16:42:01 1681

转载一致性hash算法简介

一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（DHT）实现算法，设计目标是为了解决因特网中的热点(Hot spot)问题，初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希（DHT）可以在P2P环境中真正得到应用。一致性hash算法提出了在动态变化的Cache环境中，判定哈希算法好坏的四个定义：1、平衡性(Balance)：

2016-05-16 21:56:07 387

转载 SQL表连接查询(inner join、full join、left join、right join)

SQL表连接查询(inner join、full join、left join、right join) 转自：http://www.cnblogs.com/still-windows7/archive/2012/10/22/2734613.html前提条件：假设有两个表，一个是学生表，一个是学生成绩表。表的数据有：

2016-05-15 16:44:00 638

原创 Java基础知识汇总2

一、多线程与异常处理1、Java中通Tread类和Runnable接口实现多线程。由于Java是单继承，实际应用中，多采用实现Runnable接口的方式实现多线程。2、Runnable接口仅定义了一个run（）抽象方法。3、用start（）方法启动线程。4、【注】final类型的方法，不能被重写5、线程同步a）解决多线程共享资源的访问问题，基本上采用的都是对共享资源

2016-05-15 15:34:37 352

转载机器学习：最小二乘法和梯度下降法

一.背景 5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》，想到能见到传说中的项亮大神，特地拿了本《推荐系统实践》求签名。讲座开始，主讲人先问了下哪些同学有机器学习的背景，我恬不知耻的毅然举手，真是惭愧。后来主讲人在讲座中提到了最小二乘法，说这个是机器学习最基础的算法。神马，最基础，我咋不知道呢！看来以后还是要对自己有清晰认识。回来赶紧上百度，搜

2016-05-13 11:17:24 3541

原创 python2.x和python3.x中raw_input( )和input( )区别

备注：1、在python2.x中raw_input( )和input( )，两个函数都存在，其中区别为raw_input( )---将所有输入作为字符串看待，返回字符串类型input( )-----只能接收“数字”的输入，在对待纯数字输入时具有自己的特性，它返回所输入的数字的类型（ int, float ）2、在python3.x中raw_input(

2016-05-11 22:39:16 38450 1

转载 Python中tile函数的用法

tile函数位于Python模块 numpy.lib.shape_base中，他的功能是重复某个数组。比如tile(A,n)，功能是将数组A重复n次，构成一个新的数组，我们还是使用具体的例子来说明问题：先来引入numpy下的所有方法我们创建一个a，如图下图，使用tile来创建b，注意看b的数据结构假如我们输入一个元组(1,2)，我们会得到一样的结果，与上面相

2016-05-11 22:20:04 1923

转载机器学习中正则化方法简介：L1和L2正则化(regularization)、数据集扩增、dropout

正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程，网络在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。为了防止overfitting，可以用的方

2016-05-11 10:51:35 2303

转载机器学习中的归一化问题

针对这个问题参考了wiki的解释： http://en.wikipedia.org/wiki/Feature_scaling。归一化后有两个好处：1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度”。1 归一化为什么能提高梯度下降法求解最优解的速度？斯坦福机器学习视频做了很好的解释： https://class.coursera.org/ml-003/lecture

2016-05-10 09:20:27 3112

原创 Java基础知识汇总

一、初始Java1、一个Java源文件中最多只能有一个public的类【但，可以有多个class的声明】，当有一个public的类时，源文件名必须与此类名一致，否则，无法编译；如果源文件中没有一个public类，则文件名和类名没有一致性要求。二、Java语法基础1、基本数据类型：a）byte---1字节，short--2，int--4，long---8【常量后面记得加上L或

2016-05-09 23:02:15 864

转载主成分分析PCA工作原理和简单介绍

ＰＣＡ原理：PCA的原理就是将原来的样本数据投影到一个新的空间中，相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标，也可以理解成把一组坐标转换到另外一组坐标系下，但是在新的坐标系下，表示原来的原本不需要那么多的变量，只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。比如，原来的样本是30*1000000的维数，就是说我们有3

2016-05-09 15:38:08 9494

转载协方差的意义和计算公式

协方差的意义和计算公式学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，1

2016-05-09 15:22:20 607

转载机器学习中数据归一化和两种常用的归一化方法

机器学习、数据挖掘工作中，数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时，数据预处理的效果也直接影响了后续模型能否有效的工作。然而，目前的大部分学术研究主要集中在模型的构建、优化等方面，对数据预处理的理论研究甚少，可以说，很多数据预处理工作仍然是靠工程师的经验进行的。从业数据建模/挖掘工作也有近2年的时间，在这里结合谈一谈数据预处理中归一化方法。在

2016-05-09 14:07:09 17594 1

转载 String、StringBuffer与StringBuilder之间区别

关于这三个类在字符串处理中的位置不言而喻，那么他们到底有什么优缺点，到底什么时候该用谁呢？下面我们从以下几点说明一下　　1.三者在执行速度方面的比较：StringBuilder > StringBuffer > String　　2.String 的原因　　　　String：字符串常量　　　　StringBuffer：字符创变量　　　　StringBui

2016-05-05 20:38:07 374

常用中文停用词

常用的中文停用词，停止词，stopword

2017-05-08

20news-bydate.tar.gz 文本分类数据集 20news

2016-05-19

集体智慧编程（中文版）

本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。

2016-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

常用中文停用词

20news-bydate.tar.gz 文本分类 数据集 20news

集体智慧编程（中文版）

推荐系统实践

codeblocks使用教程 linux版

rfc2616中文版

2012年5月上半年软件设计师考试试题及其答案

2011下半年软件设计师试题及其答案

2012软件设计师试题及答案

Maven下建立web工程详细步骤

Spring Security 3.x.chm 中文参考手册

Spring2.5+Struts1.3.8+Hibernate3.0整合

struts1.2源码

ssh1实现简单的增删查改i+ssh2实现crud

空空如也

20news-bydate.tar.gz 文本分类数据集 20news