2016年05月_三只小老虎

原创基于用户协同过滤与基于项目协同过滤的适用场景

一、在适合用途上的比较基于用户的协同过滤算法主要有两步：1）找到和目标用户兴趣相似的用户集合 2）找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。基于物品的协同过滤算法主要有两步：1）计算物品之间的相似度。2）根据物品的相似度和用户的历史行为给用户生成推荐列表。Item CF是利用物品间的相似性来推荐的，所以假如用户的数量远远超过物品的数量，那么可以考虑使用Item CF，

2016-05-25 16:32:51 5708

Given a positive integer n, break it into the sum of at least two positive integers and maximize the product of those integers. Return the maximum product you can get.For example, given n = 2, return 1

2016-05-23 17:39:16 281

原创 338. Counting Bits

Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1’s in their binary representation and return them as an array.Example: For num = 5 you sh

2016-05-23 17:02:42 315

转载推荐常用算法之-基于内容的推荐

Collaborative Filtering Recommendations (协同过滤，简称CF) 是目前最流行的推荐方法，在研究界和工业界得到大量使用。但是，工业界真正使用的系统一般都不会只有CF推荐算法，Content-based Recommendations (CB) 基本也会是其中的一部分。 CB应该算是最早被使用的推荐方法吧，它根据用户过去喜欢的产品（本文统称为

2016-05-12 14:01:01 12768

原创最长公共子序列(LCS)

一个字符串S，去掉零个或者多个元素所剩下的子串称为S的子序列。最长公共子序列就是寻找两个给定序列的子序列，该子序列在两个序列中以相同的顺序出现，但是不必要是连续的。例如序列X=ABCBDAB，Y=BDCABA。序列BCA是X和Y的一个公共子序列，但是不是X和Y的最长公共子序列，子序列BCBA是X和Y的一个LCS，序列BDAB也是。寻找LCS的一种方法是枚举X所有的子序列，然后注意检查是否是Y的子序列

2016-05-11 17:06:28 460

原创最长上升子序列LIS(Longest increasing subsequence)

介绍最长上升子序列问题，也就是Longest increasing subsequence缩写为LIS。是指在一个序列中求长度最长的一个上升子序列的问题。问题描述: 给出一个序列a1,a2,a3,a4,a5,a6,a7….an,求它的一个子序列（设为s1,s2,…sn），使得这个子序列满足这样的性质，s1 <s2 <s3 <… <sn并且这个子序列的长度最长。输出这个最长的长度（为了简化该类问题

2016-05-11 16:56:13 639

转载二叉树的深度优先遍历与广度优先遍历

深度优先搜索算法（Depth First Search），是搜索算法的一种。是沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所有边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。如图所示的二叉树：

2016-05-11 16:29:04 538

原创最长公共子序列(LCS)

一个字符串S，去掉零个或者多个元素所剩下的子串称为S的子序列。最长公共子序列就是寻找两个给定序列的子序列，该子序列在两个序列中以相同的顺序出现，但是不必要是连续的。例如序列X=ABCBDAB，Y=BDCABA。序列BCA是X和Y的一个公共子序列，但是不是X和Y的最长公共子序列，子序列BCBA是X和Y的一个LCS，序列BDAB也是。寻找LCS的一种方法是枚举X所有的子

2016-05-10 13:41:50 676

原创数据结构之Trie树

1、背景词汇搜索、词频统计等字符串操作，是搜索引擎、文本处理系统等经常使用的业务，现在假设有这么一个简单的文本处理例子：有一篇10000个词的文章，要查出单词“was”在这篇文章中出现的次数。那么一般来说，没学过数据结构课程的读者可能会采用最简单但是最查找效率最低的穷举遍历法：读入整篇文章的词到一个字符串大数组中，然后一个一个地与“was”比较匹配。对于学习过数据结构课程的

2016-05-09 22:51:10 542

转载 linux文件系统简介

文件系统是linux的一个十分基础的知识，同时也是学习linux的必备知识。本文将站在一个较高的视图来了解linux的文件系统，主要包括了linux磁盘分区和目录、挂载基本原理、文件存储结构、软链接硬链接、和常见目录的介绍。相信有了这些知识对于深入的学习linux会有一定的帮助。文章例子主要是基于ubuntu发行版。如有不对之处请大家多多指出。1.Linux

2016-05-08 00:02:15 353

转载 hadoop hdfs常用命令

启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件

2016-05-07 23:47:27 263

转载 Hadoop WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是Job

2016-05-07 23:32:13 482

原创 hadoop完全分布式模式的安装和配置

最近在学Hadoop，学习Hadoop第一步当然是搭建环境。因为刚开始接触Hadoop，加之对Linux命令行不熟悉。完全搭建好这个环境用了两天的时间。虽然搭建好这个环境只是第一步，但是我感觉还是收获很多，比如对Linux的操作，其中最让我头疼的是Linux权限问题。搭建过程中操作一般都是对的，因为开始用的是root用户，所以切换到普通用户老是报拒绝操作。所以我频换的切换用户进行权限更改，下次再搭

2016-05-07 15:06:48 2817

橙子的博客

原创基于用户协同过滤与基于项目协同过滤的适用场景

原创 343. Integer Break

原创 338. Counting Bits

转载推荐常用算法之-基于内容的推荐

原创最长公共子序列(LCS)

原创最长上升子序列LIS(Longest increasing subsequence)

转载二叉树的深度优先遍历与广度优先遍历

原创最长公共子序列(LCS)

原创数据结构之Trie树

转载 linux文件系统简介

转载 hadoop hdfs常用命令

转载 Hadoop WordCount运行详解

原创 hadoop完全分布式模式的安装和配置

Data Structures and Algorithm Analysis in C++, Dr. Clifford A. Shaffer

空空如也