自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Little_Fire的博客

致力于大数据分析、机器学习与推荐系统学习与研究的技术小白,但我相信不积跬步无以至千里,不积小流无以成江海

  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

转载 (转载)CRF 及CRF++ 的安装、使用与解释

原文章地址:https://blog.csdn.net/u013378306/article/details/54603926CRF简介Conditional Random Field:条件随机场,一种常用的机器学习和NLP技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(...

2018-06-27 09:48:41 821

原创 (算法总结)二叉排序树的节点删除(leetcode 450)

二叉排序树的节点插入和查找已经在本人的上一篇博文中讲解过了,大家可以参考:https://blog.csdn.net/little_fire/article/details/80798663本篇博文将为大家重点讲解一下二叉排序树的节点删除操作,对应的是leetcode的第108题目,希望为大家带来帮助。首先,根据二叉排序树的性质可知,二叉排序树的待删除节点,可能存在以下三种情况:(1)既包含左子树...

2018-06-25 21:13:18 6561 4

原创 (算法整理)排序数组转平行二叉树(leetcode 108)

leetcode 108 排序数组转平行二叉树算法描述:已知一个排序数组,现需要将其转化为一个高度平衡的二叉查找树。(平衡二叉树的定义:二叉树中,任意两个节点的高度差小于等于1)思考:将排序数组转化为高度平衡的二叉查找树,关键在于数据元素插入的二叉树的顺序结论:每次选取数组的“中间元素”插入二叉树,完成选择后,再将数组划分为左右两个数组(类似于二分查找),再递归地处理这两个子数组,继续选择中间元素...

2018-06-25 15:00:08 648

原创 (算法整理)二叉查找树的节点插入与节点查找

二叉查找树(Binary Search Tree)是一种特殊的二叉树,它是一种查找结构,一棵二叉查找树是一棵二叉树,且具有以下性质:(1)若左子树不空:左子树上所有节点值均小于等于该节点的值;(2)若右子树不空,右子树上所有节点值均大于等于该节点的值;(3)左右子树也同样是二叉查找树(递归定义);(4)等于的情况只能出现在二叉查找树的一侧,一般的二叉查找树无重复节点二叉查找树的数据结构定义与普通二...

2018-06-25 10:52:12 1347

转载 (转载)推荐系统与隐语义模型LFM概述

转载一篇再推荐系统领域工程实用性很强的文章:http://www.shuang0420.com/2017/02/17/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E9%9A%90%E8%AF%AD%E4%B9%89%E6%A8%A1%E5%9E%8BLFM/本篇文章主要介绍 隐语义模型 LFM(latent factor model)。隐语义模型最早在文本挖掘领域...

2018-06-21 18:37:52 804

原创 Softmax的通俗讲解

0 前言Softmax在机器学习中应用非常广泛,尤其在处理多分类问题,分类器最后的输出单元需要Softmax 函数进行数值处理。但是刚刚接触机器学习的同学可能对Softmax的特点及好处并不理解,当你了解以后会发现,Softmax计算简单,效果显著。我们先来直观看一下,Softmax究竟是什么意思:我们知道max,假如说我有两个数,a和b,并且a>b,如果取max,那么就直接取a,没有第二种...

2018-06-21 18:22:24 10938 1

原创 通俗理解简单的交叉熵损失函数

说起交叉熵损失函数「Cross Entropy Loss」,我们都不陌生,脑海中会马上浮现出它的公式:我们已经对这个交叉熵函数的形式非常熟悉,多数情况下都是直接拿来使用。那么,它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?接下来我将尽可能通俗地回答上面这几个问题。(一)交叉熵损失函数的数学原理我们知道,在二分类问题模型,例如逻辑回Logistic R...

2018-06-21 13:42:00 3629

原创 (通俗理解)机器学习中 L1 和 L2 正则化的直观解释

机器学习中,如果参数过多,造成模型过于复杂,容易造成过拟合(overfiting),即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,即不具有很强的泛化能力。为了避免过拟合,最常用的一种方法是使用正则化,例如 L1 和 L2 正则化,分别对应于回归分析中的Lasso回归和Ridge回归。但是,正则化项如何得来?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?本人在经...

2018-06-21 11:38:29 2458 1

转载 (转载)用Maven构建的Mahout项目实现协同过滤

原文地址:https://blog.csdn.net/jiutianhe/article/details/401117911. 用Mahout实现协同过滤userCFMahout协同过滤UserCF深度算法剖析,请参考文章:用R解析Mahout用户推荐协同过滤算法(UserCF)实现步骤:(1)准备数据文件: item.csv;(2)编写Java程序:UserCF.java;(3)运行程序(1)数...

2018-06-19 11:54:06 585

原创 (工程整理)如何用Maven构建Hadoop项目

本人去年的时候一直对maven项目很头疼,由于在构建hadoop项目时涉及到很多版本冲突方面的问题,但是在今年的开发中将很多问题得以解决。这一次,将本人的经验得以总结,为大家讲解一下用maven构建hadoop项目的具体步骤。(一)hadoop家族简介Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout...

2018-06-19 11:20:04 4607 1

原创 (算法整理)二叉树的递归与非递归遍历算法

树形结构的考察在数据结构预算法中一直占有很重要的地位,二叉树的遍历一直是最基本的算法,众所周知,二叉树的遍历主要分为前序、中序、后序这三种,且三种遍历方式都存在递归与非递归两种形式,这里做一下整理与总结。这里先定义一下二叉树结点的数据结构:struct TreeNode{ int val; struct TreeNode* left = NULL; struct TreeNode* rig...

2018-06-17 18:23:05 359

原创 svd与svd++联系与区别

最近一直在做基于SVD推荐方面的工作,主要使用的是Mahout提供的cf.taste.impl.recommender.svd包下的推荐器,这里有一段参考代码,使用的推荐器是SVDRecommender,如下所示:public class SVDRecommenderEx { private static String input = "/Users/harikrishna_gurram/cus...

2018-06-14 15:45:23 2495

转载 (转载)MapReduce shuffle过程剖详解及参数配置调优

MapReduce简介   在MapReduce中,框架会确保reduce阶段收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图:更详细的MapReduce介绍参考《Hadoop MapReduce技术内幕》Mapper的输出排序、然后传送到Reducer的过程...

2018-06-07 19:39:07 757

转载 (转载)MapReduce作业配置参数

原文:https://blog.csdn.net/qiezikuaichuan/article/details/46682049Note:以下配置可在服务器的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在目标作业提交时,通过configuration个性化指定这些参数。参数名称缺省值说明mapreduce.job.name作业名称mapreduce.job...

2018-06-07 17:36:39 2742

原创 MapReduce的Shuffle过程详解

在前一篇博文,我已经讲解了MapReduce的过程。这一篇文章,我将会就MapReduce最重要的一个环节:Shuffle,来做具体的讲解,这部分内容将帮助你优化你的mapreduce程序,使你的程序更加高效。本文主要引用了http://langyu.iteye.com/blog/992916的内容,并做了一些更改。(一)什么是shuffleShuffle过程是MapReduce的核心(也被称为奇...

2018-06-07 13:38:12 2062

原创 MapReduce的通俗理解与入门

看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop 与MapReduce的整体有所了解了。【前言】Hadoop是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce、分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等...

2018-06-07 11:10:20 35834 12

原创 用hadoop jar执行包含hbase应用的jar包报NoClassDefFoundError问题的解决

在离线分析任务中,为了在hadoop集群上分布式运行我们的程序,需要在eclipse环境中将需要运行的程序打好jar包,丢到服务器端,用hadoop jar xxx.jar <arg0> <arg1> ...... 命令来执行。在eclipse打包有两种打包形式:普通jar和runable jar若使用runable jar打包,则是将所有与程序相关的依赖jar包全部打包进...

2018-06-06 10:39:10 2518

转载 (转载)一个有关mapreduce全局变量的问题

https://blog.csdn.net/zeqblog/article/details/39006395最近在写mapreduce时,遇到一个问题,在class中定义的全局变量,在用eclipse本地开发运行时,mapreduce函数内部能取到参数变量,但是打包成jar包,用hadoop jar xxx.jar className 运行的时候,发现map或者reduce函数中取不到全局变量!!...

2018-06-05 14:11:01 770

原创 静态成员和非静态成员的区别

Java工程师经常会遇到变量声明的问题,遇到一个变量,经常不知道是否将其声明为static变量或普通变量。这里转载一篇blog,希望为大家带来一些指导性建议。【Generalization】static是一个修饰符,用于修饰成员(成员变量、成员方法)。在类A中被static修饰的变量是一种被A类对象所共享的数据,不仅可以被A类对象调用,也可以通过类名A直接调用。【static 的特点】(1)sta...

2018-06-05 11:58:03 1491

转载 (转载)为什么不能从static方法调用非static的方法或变量?

http://blog.csdn.net/zhouwubin123/article/details/6623308Java开发人员一定遇到过,在eclipse开发环境中,在包括main方法在内的static方法中调用某非静态变量,会编译出错。public class StaticDemo { int x; void fun() { System.out.println("this is f...

2018-06-05 11:21:45 6242 1

虚拟页式存储管理系统

虚拟页式存储管理系统,支持先进先出算法、最佳值换算法和LRU算法。

2010-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除