自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 机器学习中的算法——决策树模型组合之随机森林与GBDT

原地址:http://www.36dsj.com/archives/21036机器学习中的算法——决策树模型组合之随机森林与GBDT 前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方

2016-01-14 14:05:01 1181

转载 随机森林原理介绍

原地址:http://www.cnblogs.com/hrlnw/p/3850459.html1.随机森林原理介绍随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成

2016-01-14 13:53:20 1817

转载 随机森林之特征选择

原文地址:http://www.360doc.com/content/13/1206/09/13528701_334877080.shtml摘要:在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪

2016-01-14 13:52:06 6613

转载 linux sort 命令详解

原帖:http://www.cnblogs.com/51linux/archive/2012/05/23/2515299.htmllinux sort 命令详解sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理 sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按A

2015-12-29 12:24:24 348

转载 hadoop-Streaming学习

原帖地址:http://cp1985chenpeng.iteye.com/blog/13129761.概述Hadoop Streaming是 Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或脚本文件作为 Mapper和 Reducer,例如:       $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hado

2015-12-28 17:50:37 344

转载 使用Mahout搭建推荐系统之入门篇4-Mahout实战

原始地址:http://my.oschina.net/Cfreedom/blog/201828目录[-]一、基本内容二、运行环境三、程序运行3.1 调整N值和Threshold值对推荐结果的影响:3.2. 针对DataModel做一些数据分析, 类似于博文2, 判断item和user数量, value范围, 方差等.3.3 选择DataM

2015-12-17 11:05:25 3622 1

转载 使用Mahout搭建推荐系统之入门篇3-Mahout源码初探

原始地址:http://my.oschina.net/Cfreedom/blog/201829用意: 希望了解Mahout中数据的存储方式, 它如何避免java object带来的冗余开销。学完知识,要进行些实战 去分析数据。 花了些时间看了看Mahout的源码和官方资料,记录下自己的一些收获。文字写了很多, 有点啰嗦了, 但是这些东西都是我这段时间学习推荐系统的一

2015-12-17 11:04:31 577

转载 使用Mahout搭建推荐系统之入门篇2-玩转你的数据1

原始地址:http://my.oschina.net/Cfreedom/blog/173635目录[-]一. 前期数据分析的三个阶段二. 数据分析实例三. 不错的数据来源用意: 搞推荐系统或者数据挖掘的, 对数据要绝对的敏感和熟悉, 并且热爱你的数据. 分析数据既要用统计分析那一套,又要熟悉业务发掘有趣的特征(feat

2015-12-17 11:02:39 541

转载 使用Mahout搭建推荐系统之入门篇1-搭建REST风格简单推荐系统

原始链接:http://my.oschina.net/Cfreedom/blog?catalog=408809     用意: 网络上有很多关于使用mahout搭建推荐系统的文章,但是还没有一个从建立推荐系统原型至部署到简单服务器的完整教程. 虽然部分朋友对推荐系统很感兴趣, 但是因hadoop的复杂而却步.  同时对于那些没有任何Web开发经验的朋友来说, 一个完整的小型推荐

2015-12-17 11:00:33 1329

转载 使用Mahout搭建推荐系统之入门篇-Mahout源码初探

原文地址:http://f.dataguru.cn/thread-248282-1-1.html用意: 希望了解Mahout中数据的存储方式, 它如何避免java object带来的冗余开销。学完知识,要进行些实战去分析数据。花了些时间看了看Mahout的源码和官方资料,记录下自己的一些收获。文字写了很多, 有点啰嗦了, 但是这些东西都是我这段时间学习推荐系统的一些感悟,希

2015-12-17 10:53:29 710

转载 hadoop2.5.2 mahout0.10.1 测试文本分类器

原文链接:http://blog.csdn.net/landebug/article/details/46520339说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2--------------------------------------

2015-12-17 10:51:12 353

转载 HBase简介

一、HBase概述HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。主要应用场景是实时随机读写超大规模的数据。

2015-12-16 10:43:48 527

转载 hbase安装配置(整合到hadoop)

版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]如果想详细了解hbase的安装:http://abloz.com/hbase/book.html 和官网http://hbase.apache.org/1.  快速单击安装在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除

2015-12-16 10:39:50 417

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除