自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Claire_Bear7的专栏

克莱尔小熊的专栏。。。

  • 博客(87)
  • 收藏
  • 关注

原创 ff

2015-08-19 19:49:14 688

原创 Leetcode 之 Subsets

Given a set of distinct integers, nums, return all possible subsets.Note:Elements in a subset must be in non-descending order.The solution set must not contain duplicate subsets.For example, If nums

2015-08-13 23:20:51 652

原创 Leetcode 之 Binary Search Tree Iterator

Implement an iterator over a binary search tree (BST). Your iterator will be initialized with the root node of a BST.Calling next() will return the next smallest number in the BST.Note: next() and hasN

2015-08-02 23:23:26 640

转载 机器学习之正则化

1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠拟合(under

2015-08-02 15:29:31 495

原创 Leetcode 之 Maximum Subarray

Find the contiguous subarray within an array (containing at least one number) which has the largest sum.For example, given the array [−2,1,−3,4,−1,2,1,−5,4], the contiguous subarray [4,−1,2,1] has the

2015-07-26 00:45:36 488

转载 谷歌技术"三宝"之MapReduce

江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来介绍一下

2015-07-22 10:33:29 659

原创 Leetcode 之 Restore IP Addresses

Given a string containing only digits, restore it by returning all possible valid IP address combinations.For example: Given “25525511135”,return [“255.255.11.135”, “255.255.111.35”]. (Order does not

2015-07-22 00:30:29 508

原创 Leetcode 之 Gray Code

The gray code is a binary numeral system where two successive values differ in only one bit.Given a non-negative integer n representing the total number of bits in the code, print the sequence of gray

2015-07-21 00:01:16 458

原创 recommend

个性化程度推荐按照个性化程度从低到高可以分为:普适的/非个性化的 -> 适合一个小组的(组推荐) -> 适合当前活动的 和 持久的。输入输出输入数据主要是评分数据,包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据,能直接表示用户的喜好,然而,由于用户往往会忽略或不愿意对之前的选择进行评分,因此,这种评分通常不是很容易获取,使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为(如

2015-07-18 21:54:42 531

原创 推荐系统总结

个性化程度推荐按照个性化程度从低到高可以分为:普适的/非个性化的 -> 适合一个小组的(组推荐) -> 适合当前活动的 和 持久的。输入输出输入数据主要是评分数据,包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据,能直接表示用户的喜好,然而,由于用户往往会忽略或不愿意对之前的选择进行评分,因此,这种评分通常不是很容易获取,使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为(如

2015-07-18 17:02:40 719

转载 排序算法

概述排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。         当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。   快速排序:是目前基于比较的内部排序中被认为是最好的方法,当待排序的关键

2015-07-17 19:20:23 551

原创 360方案 技术解决方案

之前有做过一个360的个性化推荐排序与点击率预估方案。很遗憾,方案最终落选于一堆清华北大的队伍中。记得当时评估人(一个很资深的大牛)问我:如果把用户分组了,不是会抹杀掉用户的一些特征吗?我当时完全答不上来。但是能够在一周内快速的做出一个方案来,这段黑暗的岁月还是值得铭记在心的。下面,就把这个方案分享一下:点击率预估 点击率预估现在普遍应用在广告投放中,因为直接与用户和利益相关,是各个企业非常重视的

2015-07-16 11:38:35 994

原创 360方案 相关技术(推荐、排序、点击率预估)

这篇主要总结一下做的方案用到的推荐系统、排序学习和点击率预估的相关技术。个性化推荐算法和模型推荐方法是整个推荐系统中最为核心的部分,推荐方法的好坏在很大程度上决定了推荐系统性能的优劣。因此,国内外对于推荐算法的研究都较为深入,常用的推荐算法主要有以下几种:协同过滤推荐、基于内容的推荐和基于知识的推荐。协同过滤协同过滤推荐(Collaborative Filtering Recommendation)

2015-07-16 10:19:07 4029

转载 美团推荐算法实践:机器学习重排序模型成亮点

前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语

2015-07-15 17:32:32 2433

原创 Leetcode 之 Candy

There are N children standing in a line. Each child is assigned a rating value.You are giving candies to these children subjected to the following requirements:Each child must have at least one candy.

2015-07-14 16:19:06 414

原创 知识点——操作系统

进程状态三态模型在多道程序系统中,进程在处理器上交替运行,状态也在不断变化。进程一般有三种状态:运行、就绪和阻塞。 状态 条件 特征 运行 一个进程在处理器上运行 进程数目小于处理器的数目对于单处理机系统,处于运行状态的进程只有一个 就绪 一个进程获得了除处理机以外的一切所需资源,一旦得到处理机即可运行 可以按多个优先级来划分队列 阻塞 一个进程正在等待某一

2015-07-13 22:33:18 576

原创 知识点——网络

TCP连接TCP连接是在IP网络中两个进程间(应用层协议)的双向、全双工的逻辑回路。由节点的IP地址和端口将连接双方对应起来。 TCP连接的建立可以简单的称为三次握手,而连接的中止则可以叫做四次握手。TCP连接建立通过3个TCP段的交换来了解这些信息,就是常说的TCP 握手的3个包。一般在客户端访问TCP服务器的时候,在客户端初始化一个TCP连接,服务器端打开一个特殊端口等待传入的请求。客户端主动发

2015-07-13 21:32:06 870

原创 笔试题 百度2015大数据云计算研发笔试(关灯开灯)

有编号1~100个灯泡,起初所有的灯都是灭的。有100个同学来按灯泡开关,如果灯是亮的,那么按过开关之后,灯会灭掉。如果灯是灭的,按过开关之后灯会亮。 现在开始按开关。 第1个同学,把所有的灯泡开关都按一次(按开关灯的编号: 1,2,3,……100)。 第2个同学,隔一个灯按一次(按开关灯的编号: 2,4,6,……,100)。 第3个同学,隔两个灯按一次(按开关灯的编号: 3,6,9,……,

2015-07-12 11:42:25 1866

原创 笔试题 百度2015大数据云计算研发笔试(非相邻数最大和)

给定一个整数的数组,相邻的数不能同时选,求从该数组选取若干整数,使得他们的和最大,要求只能使用o(1)的空间复杂度。要求给出伪码。

2015-07-12 11:25:26 3439 4

原创 大数据计算框架Hadoop, Spark和MPI

今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着。今天就借这个机会好好学习一下。一张表 名称 发起者 语言 简介 特点 适用场景 Hadoop Yahoo工程师,Apache基金会 Java MapReduce分布式计算框架+HDF

2015-07-12 10:48:28 14027 1

转载 淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发

2015-07-11 19:03:53 926

原创 Java基础

这几天看了看Java的基础知识,在这篇文章中总结一下。继承Java只能单继承,即子类只能继承一个父类。C++是多继承。super关键字用来访问父类成员,可以用于调用被子类重写的父类成员方法,也可以调用父类的构造方法,通过参数的数目和类型来决定调用哪一个构造方法。一个实现类只能继承一个抽象类,但可实现多个接口。多态可以通过方法的覆盖(子类对于父类方法的覆盖和重写)来实现多态,其本质是,发送消息

2015-07-11 10:53:32 567

原创 Leetcode 之 Jump Game

Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.Determine if you are

2015-07-08 23:57:36 431

原创 大数据 之 NoSQL

这篇开始学习非关系型数据库NoSQL。以前一直不明白为什么没有字段的数据库怎么还能够称作数据库,并且还取得这么大的成功。后来学习了他的发展史才明白。借用看到的一句总结 关系型数据库想把一致性、完整性、索引、CRUD都干好,但是NoSQL只关注与性能分布式相关的非功能性的东西。传统数据库的瓶颈任何一门新技术的出现都不是偶然,一定是在它本领域的应用中出现了瓶颈,学者们为了解决这种瓶颈,才会导致一门

2015-07-08 21:46:23 744

转载 贪心算法

贪心算法顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。当然,希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好近似。问题一、活动安

2015-07-08 00:14:48 778

原创 JSTL Java标准模板库

STL今天在看STL,它主要分成序列式容器和关联式容器。序列式容器:主要有 vector, list, deque, stack, queue, heap关联式容器:每个元素都有一个key-value对,容器内部按照键值的大小,以某个规则将这个元素放到适当的位置。 RB-tree:Set, Map, MultiSet, MultiMap : 可自动排序HashTable: HashSet,

2015-07-07 17:47:48 1879

原创 机器学习 之 Adaboost

今天深入了解了Adaboost(Adaptive boosting),自适应增强算法。它的原理其实很简单:每一个样本都有一个权重,用样本训练出的模型都有一个误差率(错分类样本的权重和),也有一个系数(表示当前弱分类器在最终强分类器的权重)。通过多轮迭代完成对分类模型的构建。每一轮都选取误差率最低的模型作为基本分类器。在每一轮迭代中都增加误分类样本的权值,降低正确分类的样本的权值。加权后的新

2015-07-07 15:47:37 546

原创 Leetcode 之 Best Time to Buy and Sell StockI,II

Say you have an array for which the ith element is the price of a given stock on day i.If you were only permitted to complete at most one transaction (ie, buy one and sell one share of the stock), desi

2015-07-07 01:33:03 439

原创 机器学习 之 LDA主题模型

今天终于开始啃LDA了,同时恶补一下概率分布方面的东西。先放上来大神学习LDA的五个步骤: 1. 一个函数:gamma函数 2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 3. 一个概念和一个理念:共轭先验和贝叶斯框架 4. 两个模型:pLSA、LDA 5. 一个采样:Gibbs采样LDA(Latent Dirichlet Allocation)全称是

2015-07-06 23:24:13 8661 1

原创 机器学习 之 各种距离

今天,在看大神的距离度量,被各种距离应用场景的神总结惊呆了,先引用一下镇镇楼: 简单说来,各种“距离”的应用场景简单概括为, 空间:欧氏距离 路径:曼哈顿距离 国际象棋国王:切比雪夫距离 以上三种的统一形式:闵可夫斯基距离 加权:标准化欧氏距离 排除量纲和依存:马氏距离 向量差距:夹角余弦 编码差别:汉明距离 集合近似度:杰卡德类似系数与距离

2015-07-06 20:41:27 826

原创 Leetcode 之 Minimum Path Sum

Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which minimizes the sum of all numbers along its path.Note: You can only move either down or right at any

2015-07-05 23:46:54 495

原创 大数据环境下基于R语言的数据挖掘平台 之 环境配置

为了用Hadoop集群,我们选用了Ubuntu作为开发的平台,相应的就有一堆在Windows上不会出现的问题需要解决。印象最深刻的就是由于X11的问题,在Windows上用R画图是没问题的,但是换到了Ubuntu上就显示不出来,这个问题直到比赛当天都一直存在,Team Member一直为了这个问题在改,最终还是成功的解决了,在此也对他们表示感谢。这篇文章就列一下当时配环境时候的一些步骤,方便后人在U

2015-07-05 18:47:11 1769

原创 大数据环境下基于R语言的数据挖掘平台 之 大数据处理与导出模块

这篇文章总结一下大数据处理模块与导出模块:大数据处理功能这个模块实现了对大数据的处理,用户选择处理方法并上传需要处理的数据集,系统将利用Hadoop集群与R对数据进行分析处理,并将结果显示给用户。实现原理模块使用Hadoop框架搭建了一个分布式集群,用于大数据的并行处理。并将Kmeans聚类算法与朴素贝叶斯分类算法用MapReduce编程框架实现。Kmeans聚类算法的MapReduce化 该过

2015-07-05 18:01:16 1500

原创 大数据环境下集成R语言的数据挖掘系统 之 数据分析

这一篇主要介绍数据分析模块实现的算法。分类模块流程图功能本模块实现了数据分类功能,系统提供了SVM,KNN,决策树,随机森林等分类算法。首先通过对测试集的数据进行模型构建,在构建模型过程中我们可以对模型进行参数设置,模型构建完成之后,我们对预测集进行预测,最后将分类的结果导出。实现原理聚类模块流程图功能本模块实现了数据聚类功能,系统提供了kmeans,clara,PAM,Agnes,Diana算法。

2015-07-05 17:47:57 1305

原创 大数据环境下集成R语言的数据挖掘平台 之介绍、数据上传与数据预处理

这个集成R语言的数据挖掘平台是当时为中国软件杯比赛做的一个系统,由于时间太紧,当时开发只用了一周的时间,不过前前后后用了大半年来学习和熟悉R语言,深深感觉到R语言真的是数据分析的一个利器,内置的各种分析包大大简化了数据分析的过程,只需要传参调用即可,再也不需要读懂算法才能完成分析了。但是,R语言当前还是需要以命令行的形式使用的,RStudio也只是优化了应用程序的界面,没有方便的针对业务人员的一个应

2015-07-05 17:19:28 2295

原创 机器学习 之 贝叶斯分类器

今天,学习了贝叶斯分类的相关内容,总结如下:贝叶斯的思考方法在贝叶斯派出现之前,占据主流地位的思考方法是频率派。他们认为,事情发生的频率是一定的(虽然可能算不出来,但是是确定的一个值),然而,样本空间确实不确定的,因此只需要关注样本分布即可。而贝叶斯则认为,参数是随机的(会产生变化),而样本确实固定的,因此需要重点关注参数估计。为了估计参数,就需要先知道参数的无条件分布,也就是说在有样本之前,参数是

2015-07-05 12:18:52 9005

原创 Leetcode 之 Unique Binary Search Trees

Given n, how many structurally unique BST’s (binary search trees) that store values 1…n?For example, Given n = 3, there are a total of 5 unique BST’s.

2015-07-04 23:19:12 362

原创 机器学习 之 决策树

今天在看大神总结的决策树部分,记录一下读书笔记:ID3大神是从决策树比较基础的算法ID3讲起的,为了介绍ID3的思想还介绍了奥卡姆剃刀原则(用较少的东西,来完成同样的事情)。ID3也是基于这样的思想:越是小型的决策树,越优于大的决策树。它用信息增益来作为属性的度量,选择分裂后信息增益最大的属性进行分裂,并采用自顶而下的贪婪搜索遍历所有可能的决策树空间。借用大神对ID3算法的总结:ID3采用自顶而下

2015-07-04 11:58:16 569

原创 Leetcode 之 Unique Paths

A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the botto

2015-07-04 00:03:56 391

原创 机器学习 之 支持向量机

今天在看支持向量机通俗导论,被完全震撼到了,这篇文章就记录下一些总结性的内容,具体的推导还要看原文。

2015-07-03 17:01:34 661

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除