2018年06月_奋斗的小炎

转载（转载）CRF 及CRF++ 的安装、使用与解释

原文章地址：https://blog.csdn.net/u013378306/article/details/54603926CRF简介Conditional Random Field：条件随机场，一种常用的机器学习和NLP技术（模型）CRF由John Lafferty最早用于NLP技术领域，其在NLP技术领域中主要用于文本标注，并有多种应用场景，例如：分词（标注字的词位信息，由字构词）词性标注（...

2018-06-27 09:48:41 821

原创（算法总结）二叉排序树的节点删除（leetcode 450）

二叉排序树的节点插入和查找已经在本人的上一篇博文中讲解过了，大家可以参考：https://blog.csdn.net/little_fire/article/details/80798663本篇博文将为大家重点讲解一下二叉排序树的节点删除操作，对应的是leetcode的第108题目，希望为大家带来帮助。首先，根据二叉排序树的性质可知，二叉排序树的待删除节点，可能存在以下三种情况：（1）既包含左子树...

2018-06-25 21:13:18 6561 4

原创（算法整理）排序数组转平行二叉树（leetcode 108）

leetcode 108 排序数组转平行二叉树算法描述：已知一个排序数组，现需要将其转化为一个高度平衡的二叉查找树。（平衡二叉树的定义：二叉树中，任意两个节点的高度差小于等于1）思考：将排序数组转化为高度平衡的二叉查找树，关键在于数据元素插入的二叉树的顺序结论：每次选取数组的“中间元素”插入二叉树，完成选择后，再将数组划分为左右两个数组（类似于二分查找），再递归地处理这两个子数组，继续选择中间元素...

2018-06-25 15:00:08 648

原创（算法整理）二叉查找树的节点插入与节点查找

二叉查找树（Binary Search Tree）是一种特殊的二叉树，它是一种查找结构，一棵二叉查找树是一棵二叉树，且具有以下性质：（1）若左子树不空：左子树上所有节点值均小于等于该节点的值；（2）若右子树不空，右子树上所有节点值均大于等于该节点的值；（3）左右子树也同样是二叉查找树（递归定义）；（4）等于的情况只能出现在二叉查找树的一侧，一般的二叉查找树无重复节点二叉查找树的数据结构定义与普通二...

2018-06-25 10:52:12 1347

转载（转载）推荐系统与隐语义模型LFM概述

转载一篇再推荐系统领域工程实用性很强的文章：http://www.shuang0420.com/2017/02/17/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E9%9A%90%E8%AF%AD%E4%B9%89%E6%A8%A1%E5%9E%8BLFM/本篇文章主要介绍隐语义模型 LFM(latent factor model)。隐语义模型最早在文本挖掘领域...

2018-06-21 18:37:52 804

原创 Softmax的通俗讲解

0 前言Softmax在机器学习中应用非常广泛，尤其在处理多分类问题，分类器最后的输出单元需要Softmax 函数进行数值处理。但是刚刚接触机器学习的同学可能对Softmax的特点及好处并不理解，当你了解以后会发现，Softmax计算简单，效果显著。我们先来直观看一下，Softmax究竟是什么意思：我们知道max，假如说我有两个数，a和b，并且a>b，如果取max，那么就直接取a，没有第二种...

2018-06-21 18:22:24 10938 1

原创通俗理解简单的交叉熵损失函数

说起交叉熵损失函数「Cross Entropy Loss」，我们都不陌生，脑海中会马上浮现出它的公式：我们已经对这个交叉熵函数的形式非常熟悉，多数情况下都是直接拿来使用。那么，它是怎么来的？为什么它能表征真实样本标签和预测概率之间的差值？上面的交叉熵函数是否有其它变种？接下来我将尽可能通俗地回答上面这几个问题。（一）交叉熵损失函数的数学原理我们知道，在二分类问题模型，例如逻辑回Logistic R...

2018-06-21 13:42:00 3629

原创（通俗理解）机器学习中 L1 和 L2 正则化的直观解释

机器学习中，如果参数过多，造成模型过于复杂，容易造成过拟合（overfiting），即模型在训练样本数据上表现的很好，但在实际测试样本上表现的较差，即不具有很强的泛化能力。为了避免过拟合，最常用的一种方法是使用正则化，例如 L1 和 L2 正则化，分别对应于回归分析中的Lasso回归和Ridge回归。但是，正则化项如何得来？其背后的数学原理是什么？L1 正则化和 L2 正则化之间有何区别？本人在经...

2018-06-21 11:38:29 2458 1

转载（转载）用Maven构建的Mahout项目实现协同过滤

原文地址：https://blog.csdn.net/jiutianhe/article/details/401117911. 用Mahout实现协同过滤userCFMahout协同过滤UserCF深度算法剖析，请参考文章：用R解析Mahout用户推荐协同过滤算法(UserCF)实现步骤：（1）准备数据文件: item.csv；（2）编写Java程序：UserCF.java；（3）运行程序（1）数...

2018-06-19 11:54:06 585

原创（工程整理）如何用Maven构建Hadoop项目

本人去年的时候一直对maven项目很头疼，由于在构建hadoop项目时涉及到很多版本冲突方面的问题，但是在今年的开发中将很多问题得以解决。这一次，将本人的经验得以总结，为大家讲解一下用maven构建hadoop项目的具体步骤。（一）hadoop家族简介Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout...

2018-06-19 11:20:04 4607 1

原创（算法整理）二叉树的递归与非递归遍历算法

树形结构的考察在数据结构预算法中一直占有很重要的地位，二叉树的遍历一直是最基本的算法，众所周知，二叉树的遍历主要分为前序、中序、后序这三种，且三种遍历方式都存在递归与非递归两种形式，这里做一下整理与总结。这里先定义一下二叉树结点的数据结构：struct TreeNode{ int val; struct TreeNode* left = NULL; struct TreeNode* rig...

2018-06-17 18:23:05 359

原创 svd与svd++联系与区别

最近一直在做基于SVD推荐方面的工作，主要使用的是Mahout提供的cf.taste.impl.recommender.svd包下的推荐器，这里有一段参考代码，使用的推荐器是SVDRecommender，如下所示：public class SVDRecommenderEx { private static String input = "/Users/harikrishna_gurram/cus...

2018-06-14 15:45:23 2495

转载（转载）MapReduce shuffle过程剖详解及参数配置调优

MapReduce简介在MapReduce中，框架会确保reduce阶段收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收，是一个很复杂的过程，框架处理了所有问题，并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图：更详细的MapReduce介绍参考《Hadoop MapReduce技术内幕》Mapper的输出排序、然后传送到Reducer的过程...

2018-06-07 19:39:07 757

转载（转载）MapReduce作业配置参数

原文：https://blog.csdn.net/qiezikuaichuan/article/details/46682049Note：以下配置可在服务器的mapred-site.xml中配置，作为MapReduce作业的缺省配置参数。也可以在目标作业提交时，通过configuration个性化指定这些参数。参数名称缺省值说明mapreduce.job.name作业名称mapreduce.job...

2018-06-07 17:36:39 2742

原创 MapReduce的Shuffle过程详解

在前一篇博文，我已经讲解了MapReduce的过程。这一篇文章，我将会就MapReduce最重要的一个环节：Shuffle，来做具体的讲解，这部分内容将帮助你优化你的mapreduce程序，使你的程序更加高效。本文主要引用了http://langyu.iteye.com/blog/992916的内容，并做了一些更改。（一）什么是shuffleShuffle过程是MapReduce的核心（也被称为奇...

2018-06-07 13:38:12 2062

原创 MapReduce的通俗理解与入门

看这篇文章请出去跑两圈，然后泡一壶茶，边喝茶，边看，看完你就对hadoop 与MapReduce的整体有所了解了。【前言】Hadoop是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce、分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等...

2018-06-07 11:10:20 35834 12

原创用hadoop jar执行包含hbase应用的jar包报NoClassDefFoundError问题的解决

在离线分析任务中，为了在hadoop集群上分布式运行我们的程序，需要在eclipse环境中将需要运行的程序打好jar包，丢到服务器端，用hadoop jar xxx.jar <arg0> <arg1> ...... 命令来执行。在eclipse打包有两种打包形式：普通jar和runable jar若使用runable jar打包，则是将所有与程序相关的依赖jar包全部打包进...

2018-06-06 10:39:10 2518

转载（转载）一个有关mapreduce全局变量的问题

https://blog.csdn.net/zeqblog/article/details/39006395最近在写mapreduce时，遇到一个问题，在class中定义的全局变量，在用eclipse本地开发运行时，mapreduce函数内部能取到参数变量，但是打包成jar包，用hadoop jar xxx.jar className 运行的时候，发现map或者reduce函数中取不到全局变量！！...

2018-06-05 14:11:01 770

原创静态成员和非静态成员的区别

Java工程师经常会遇到变量声明的问题，遇到一个变量，经常不知道是否将其声明为static变量或普通变量。这里转载一篇blog，希望为大家带来一些指导性建议。【Generalization】static是一个修饰符，用于修饰成员（成员变量、成员方法）。在类A中被static修饰的变量是一种被A类对象所共享的数据，不仅可以被A类对象调用，也可以通过类名A直接调用。【static 的特点】（1）sta...

2018-06-05 11:58:03 1491

转载（转载）为什么不能从static方法调用非static的方法或变量？

http://blog.csdn.net/zhouwubin123/article/details/6623308Java开发人员一定遇到过，在eclipse开发环境中，在包括main方法在内的static方法中调用某非静态变量，会编译出错。public class StaticDemo { int x; void fun() { System.out.println("this is f...

2018-06-05 11:21:45 6242 1

Little_Fire的博客