Claire_Bear7-CSDN博客

原创 Leetcode 之 Subsets

Given a set of distinct integers, nums, return all possible subsets.Note:Elements in a subset must be in non-descending order.The solution set must not contain duplicate subsets.For example, If nums

2015-08-13 23:20:51 652

原创 Leetcode 之 Binary Search Tree Iterator

Implement an iterator over a binary search tree (BST). Your iterator will be initialized with the root node of a BST.Calling next() will return the next smallest number in the BST.Note: next() and hasN

2015-08-02 23:23:26 640

转载机器学习之正则化

1. The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠拟合(under

2015-08-02 15:29:31 495

原创 Leetcode 之 Maximum Subarray

Find the contiguous subarray within an array (containing at least one number) which has the largest sum.For example, given the array [−2,1,−3,4,−1,2,1,−5,4], the contiguous subarray [4,−1,2,1] has the

2015-07-26 00:45:36 488

转载谷歌技术"三宝"之MapReduce

江湖传说永流传：谷歌技术有"三宝"，GFS、MapReduce和大表（BigTable）！谷歌在03到06年间连续发表了三篇很有影响力的文章，分别是03年SOSP的GFS，04年OSDI的MapReduce，和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议，在计算机学会推荐会议里属于A类。SOSP在单数年举办，而OSDI在双数年举办。那么这篇博客就来介绍一下

2015-07-22 10:33:29 659

原创 Leetcode 之 Restore IP Addresses

Given a string containing only digits, restore it by returning all possible valid IP address combinations.For example: Given “25525511135”,return [“255.255.11.135”, “255.255.111.35”]. (Order does not

2015-07-22 00:30:29 508

原创 Leetcode 之 Gray Code

The gray code is a binary numeral system where two successive values differ in only one bit.Given a non-negative integer n representing the total number of bits in the code, print the sequence of gray

2015-07-21 00:01:16 458

原创 recommend

个性化程度推荐按照个性化程度从低到高可以分为：普适的/非个性化的 -> 适合一个小组的（组推荐） -> 适合当前活动的和持久的。输入输出输入数据主要是评分数据，包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据，能直接表示用户的喜好，然而，由于用户往往会忽略或不愿意对之前的选择进行评分，因此，这种评分通常不是很容易获取，使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为（如

2015-07-18 21:54:42 531

原创推荐系统总结

个性化程度推荐按照个性化程度从低到高可以分为：普适的/非个性化的 -> 适合一个小组的（组推荐） -> 适合当前活动的和持久的。输入输出输入数据主要是评分数据，包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据，能直接表示用户的喜好，然而，由于用户往往会忽略或不愿意对之前的选择进行评分，因此，这种评分通常不是很容易获取，使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为（如

2015-07-18 17:02:40 719

转载排序算法

概述排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。当n较大，则应采用时间复杂度为O(nlog2n)的排序方法：快速排序、堆排序或归并排序序。快速排序：是目前基于比较的内部排序中被认为是最好的方法，当待排序的关键

2015-07-17 19:20:23 551

原创 360方案技术解决方案

之前有做过一个360的个性化推荐排序与点击率预估方案。很遗憾，方案最终落选于一堆清华北大的队伍中。记得当时评估人（一个很资深的大牛）问我：如果把用户分组了，不是会抹杀掉用户的一些特征吗？我当时完全答不上来。但是能够在一周内快速的做出一个方案来，这段黑暗的岁月还是值得铭记在心的。下面，就把这个方案分享一下：点击率预估点击率预估现在普遍应用在广告投放中，因为直接与用户和利益相关，是各个企业非常重视的

2015-07-16 11:38:35 994

原创 360方案相关技术（推荐、排序、点击率预估）

这篇主要总结一下做的方案用到的推荐系统、排序学习和点击率预估的相关技术。个性化推荐算法和模型推荐方法是整个推荐系统中最为核心的部分，推荐方法的好坏在很大程度上决定了推荐系统性能的优劣。因此，国内外对于推荐算法的研究都较为深入，常用的推荐算法主要有以下几种：协同过滤推荐、基于内容的推荐和基于知识的推荐。协同过滤协同过滤推荐（Collaborative Filtering Recommendation）

2015-07-16 10:19:07 4029

转载美团推荐算法实践：机器学习重排序模型成亮点

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一种是搜索，当用户有了明确的信息需求意图后，将意图转换为几个简短的词或者短语

2015-07-15 17:32:32 2433

原创 Leetcode 之 Candy

There are N children standing in a line. Each child is assigned a rating value.You are giving candies to these children subjected to the following requirements:Each child must have at least one candy.

2015-07-14 16:19:06 414

原创知识点——操作系统

进程状态三态模型在多道程序系统中，进程在处理器上交替运行，状态也在不断变化。进程一般有三种状态：运行、就绪和阻塞。状态条件特征运行一个进程在处理器上运行进程数目小于处理器的数目对于单处理机系统，处于运行状态的进程只有一个就绪一个进程获得了除处理机以外的一切所需资源，一旦得到处理机即可运行可以按多个优先级来划分队列阻塞一个进程正在等待某一

2015-07-13 22:33:18 576

原创知识点——网络

TCP连接TCP连接是在IP网络中两个进程间(应用层协议)的双向、全双工的逻辑回路。由节点的IP地址和端口将连接双方对应起来。 TCP连接的建立可以简单的称为三次握手，而连接的中止则可以叫做四次握手。TCP连接建立通过3个TCP段的交换来了解这些信息，就是常说的TCP 握手的3个包。一般在客户端访问TCP服务器的时候，在客户端初始化一个TCP连接，服务器端打开一个特殊端口等待传入的请求。客户端主动发

2015-07-13 21:32:06 870

原创笔试题百度2015大数据云计算研发笔试（关灯开灯）

有编号1~100个灯泡，起初所有的灯都是灭的。有100个同学来按灯泡开关，如果灯是亮的，那么按过开关之后，灯会灭掉。如果灯是灭的，按过开关之后灯会亮。现在开始按开关。第1个同学，把所有的灯泡开关都按一次(按开关灯的编号： 1,2,3,……100)。第2个同学，隔一个灯按一次(按开关灯的编号： 2,4,6,……,100)。第3个同学，隔两个灯按一次(按开关灯的编号： 3,6,9,……,

2015-07-12 11:42:25 1866

原创笔试题百度2015大数据云计算研发笔试（非相邻数最大和）

给定一个整数的数组，相邻的数不能同时选，求从该数组选取若干整数，使得他们的和最大，要求只能使用o(1)的空间复杂度。要求给出伪码。

2015-07-12 11:25:26 3439 4

原创大数据计算框架Hadoop, Spark和MPI

今天做题，其中一道是请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。一直想对这些大数据计算框架总结一下，只可惜太懒，一直拖着。今天就借这个机会好好学习一下。一张表名称发起者语言简介特点适用场景 Hadoop Yahoo工程师，Apache基金会 Java MapReduce分布式计算框架+HDF

2015-07-12 10:48:28 14027 1

转载淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前，每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值，进而帮助淘宝、商家进行企业的数据化运营，帮助消费者进行理性的购物决策，是淘宝数据平台与产品部的使命。为此，我们进行了一系列数据产品的研发，比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲，数据产品的研发

2015-07-11 19:03:53 926

原创 Java基础

这几天看了看Java的基础知识，在这篇文章中总结一下。继承Java只能单继承，即子类只能继承一个父类。C++是多继承。super关键字用来访问父类成员，可以用于调用被子类重写的父类成员方法，也可以调用父类的构造方法，通过参数的数目和类型来决定调用哪一个构造方法。一个实现类只能继承一个抽象类，但可实现多个接口。多态可以通过方法的覆盖（子类对于父类方法的覆盖和重写）来实现多态，其本质是，发送消息

2015-07-11 10:53:32 567

原创 Leetcode 之 Jump Game

Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.Determine if you are

2015-07-08 23:57:36 431

原创大数据之 NoSQL

这篇开始学习非关系型数据库NoSQL。以前一直不明白为什么没有字段的数据库怎么还能够称作数据库，并且还取得这么大的成功。后来学习了他的发展史才明白。借用看到的一句总结关系型数据库想把一致性、完整性、索引、CRUD都干好，但是NoSQL只关注与性能分布式相关的非功能性的东西。传统数据库的瓶颈任何一门新技术的出现都不是偶然，一定是在它本领域的应用中出现了瓶颈，学者们为了解决这种瓶颈，才会导致一门

2015-07-08 21:46:23 744

转载贪心算法

贪心算法顾名思义，贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑，它所作出的选择只是在某种意义上的局部最优选择。当然，希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解，但对许多问题它能产生整体最优解。如单源最短路经问题，最小生成树问题等。在一些情况下，即使贪心算法不能得到整体最优解，其最终结果却是最优解的很好近似。问题一、活动安

2015-07-08 00:14:48 778

原创 JSTL Java标准模板库

STL今天在看STL，它主要分成序列式容器和关联式容器。序列式容器：主要有 vector, list, deque, stack, queue, heap关联式容器：每个元素都有一个key-value对，容器内部按照键值的大小，以某个规则将这个元素放到适当的位置。 RB-tree：Set, Map, MultiSet, MultiMap ：可自动排序HashTable: HashSet,

2015-07-07 17:47:48 1879

原创机器学习之 Adaboost

今天深入了解了Adaboost(Adaptive boosting)，自适应增强算法。它的原理其实很简单：每一个样本都有一个权重，用样本训练出的模型都有一个误差率（错分类样本的权重和），也有一个系数（表示当前弱分类器在最终强分类器的权重）。通过多轮迭代完成对分类模型的构建。每一轮都选取误差率最低的模型作为基本分类器。在每一轮迭代中都增加误分类样本的权值，降低正确分类的样本的权值。加权后的新

2015-07-07 15:47:37 546

原创 Leetcode 之 Best Time to Buy and Sell StockI,II

Say you have an array for which the ith element is the price of a given stock on day i.If you were only permitted to complete at most one transaction (ie, buy one and sell one share of the stock), desi

2015-07-07 01:33:03 439

原创机器学习之 LDA主题模型

今天终于开始啃LDA了，同时恶补一下概率分布方面的东西。先放上来大神学习LDA的五个步骤： 1. 一个函数：gamma函数 2. 四个分布：二项分布、多项分布、beta分布、Dirichlet分布 3. 一个概念和一个理念：共轭先验和贝叶斯框架 4. 两个模型：pLSA、LDA 5. 一个采样：Gibbs采样LDA（Latent Dirichlet Allocation）全称是

2015-07-06 23:24:13 8661 1

原创机器学习之各种距离

今天，在看大神的距离度量，被各种距离应用场景的神总结惊呆了，先引用一下镇镇楼：简单说来，各种“距离”的应用场景简单概括为，空间：欧氏距离路径：曼哈顿距离国际象棋国王：切比雪夫距离以上三种的统一形式：闵可夫斯基距离加权：标准化欧氏距离排除量纲和依存：马氏距离向量差距：夹角余弦编码差别：汉明距离集合近似度：杰卡德类似系数与距离

2015-07-06 20:41:27 826

原创 Leetcode 之 Minimum Path Sum

Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which minimizes the sum of all numbers along its path.Note: You can only move either down or right at any

2015-07-05 23:46:54 495

原创大数据环境下基于R语言的数据挖掘平台之环境配置

为了用Hadoop集群，我们选用了Ubuntu作为开发的平台，相应的就有一堆在Windows上不会出现的问题需要解决。印象最深刻的就是由于X11的问题，在Windows上用R画图是没问题的，但是换到了Ubuntu上就显示不出来，这个问题直到比赛当天都一直存在，Team Member一直为了这个问题在改，最终还是成功的解决了，在此也对他们表示感谢。这篇文章就列一下当时配环境时候的一些步骤，方便后人在U

2015-07-05 18:47:11 1769

原创大数据环境下基于R语言的数据挖掘平台之大数据处理与导出模块

这篇文章总结一下大数据处理模块与导出模块：大数据处理功能这个模块实现了对大数据的处理，用户选择处理方法并上传需要处理的数据集，系统将利用Hadoop集群与R对数据进行分析处理，并将结果显示给用户。实现原理模块使用Hadoop框架搭建了一个分布式集群，用于大数据的并行处理。并将Kmeans聚类算法与朴素贝叶斯分类算法用MapReduce编程框架实现。Kmeans聚类算法的MapReduce化该过

2015-07-05 18:01:16 1500

原创大数据环境下集成R语言的数据挖掘系统之数据分析

这一篇主要介绍数据分析模块实现的算法。分类模块流程图功能本模块实现了数据分类功能，系统提供了SVM，KNN，决策树，随机森林等分类算法。首先通过对测试集的数据进行模型构建，在构建模型过程中我们可以对模型进行参数设置，模型构建完成之后，我们对预测集进行预测，最后将分类的结果导出。实现原理聚类模块流程图功能本模块实现了数据聚类功能，系统提供了kmeans，clara，PAM，Agnes，Diana算法。

2015-07-05 17:47:57 1305

原创大数据环境下集成R语言的数据挖掘平台之介绍、数据上传与数据预处理

这个集成R语言的数据挖掘平台是当时为中国软件杯比赛做的一个系统，由于时间太紧，当时开发只用了一周的时间，不过前前后后用了大半年来学习和熟悉R语言，深深感觉到R语言真的是数据分析的一个利器，内置的各种分析包大大简化了数据分析的过程，只需要传参调用即可，再也不需要读懂算法才能完成分析了。但是，R语言当前还是需要以命令行的形式使用的，RStudio也只是优化了应用程序的界面，没有方便的针对业务人员的一个应

2015-07-05 17:19:28 2295

原创机器学习之贝叶斯分类器

今天，学习了贝叶斯分类的相关内容，总结如下：贝叶斯的思考方法在贝叶斯派出现之前，占据主流地位的思考方法是频率派。他们认为，事情发生的频率是一定的（虽然可能算不出来，但是是确定的一个值），然而，样本空间确实不确定的，因此只需要关注样本分布即可。而贝叶斯则认为，参数是随机的（会产生变化），而样本确实固定的，因此需要重点关注参数估计。为了估计参数，就需要先知道参数的无条件分布，也就是说在有样本之前，参数是

2015-07-05 12:18:52 9005

原创 Leetcode 之 Unique Binary Search Trees

Given n, how many structurally unique BST’s (binary search trees) that store values 1…n?For example, Given n = 3, there are a total of 5 unique BST’s.

2015-07-04 23:19:12 362

原创机器学习之决策树

今天在看大神总结的决策树部分，记录一下读书笔记：ID3大神是从决策树比较基础的算法ID3讲起的，为了介绍ID3的思想还介绍了奥卡姆剃刀原则（用较少的东西，来完成同样的事情）。ID3也是基于这样的思想：越是小型的决策树，越优于大的决策树。它用信息增益来作为属性的度量，选择分裂后信息增益最大的属性进行分裂，并采用自顶而下的贪婪搜索遍历所有可能的决策树空间。借用大神对ID3算法的总结：ID3采用自顶而下

2015-07-04 11:58:16 569

原创 Leetcode 之 Unique Paths

A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the botto

2015-07-04 00:03:56 391

原创机器学习之支持向量机

今天在看支持向量机通俗导论，被完全震撼到了，这篇文章就记录下一些总结性的内容，具体的推导还要看原文。

2015-07-03 17:01:34 661

空空如也

空空如也