自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 海量数据处理面试题

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为3

2017-04-17 08:33:30 268

转载 浅析PCA

PART 1. 浅析PCA1_1 PCA概述PCA(Princile Component Analysis),中文名叫做主成成分分析,它的主要理论是:线性组合输入空间,以期找到一组标准正交基,实现坐标变换。 PCA的主要应用有以下几点:降维去噪1_2 为什么要用PCA首先,为了引入PCA,我们介绍如下几个场景:设定因变量是学习成绩,自变量是学习时间、

2017-04-13 16:01:31 749

原创 机器学习-损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+

2017-04-11 19:12:01 437 1

原创 BP神经网络的优缺点介绍

人工神经网络(Artificial Neural Network)又称连接机模型,是在现代神经学、生物学、心理学等学科研究的基础上产生的,它反映了生物神经系统处理外界事物的基本过程,是在模拟人脑神经组织的基础上发展起来的计算系统,是由大量处理单元通过广泛互联而构成的网络体系,它具有生物神经系统的基本特征,在一定程度上反映了人脑功能的若干反映,是对生物系统的某种模拟,具有大规模并行、分布式处理、自组

2017-04-10 14:23:33 130851 2

原创 面试总结

阿里妈妈一面1、介绍推荐的论文2、大数据环境下,业界怎么做的推荐3、推导SVM4、100万个数怎么查询每个数出现的次数5、单向链表和双向链表的差别6、总共3000人,五十个面试官,每人有60个面试成绩,怎么选出600人进复试,现实可行的7、算法题:(1)反转字符串(2)中文拆词,匹配最大的短语,词最大长度为8,每个汉字占两个字节(注意越界问题)(3)中文

2017-04-06 20:19:08 290

转载 入侵检测

IDS是计算机的监视系统,它通过实时监视系统,一旦发现异常情况就发出警告。IDS入侵检测系统以信息来源的不同和检测方法的差异分为几类:根据信息来源可分为基于主机IDS和基于网络的IDS,根据检测方法又可分为异常入侵检测和误用入侵检测。不同于防火墙,IDS入侵检测系统是一个监听设备,没有跨接在任何链路上,无须网络流量流经它便可以工作。因此,对IDS的部署,唯一的要求是:IDS应当挂接在所有所关注流量

2017-04-06 20:17:35 1865

原创 生成模型和判别模型

对于样本的学习主要有两种方式,就是生成学习和判别学习。简单来说,根绝学习过程中的focus点来划分。对于判别学习,主要是focus在 p(y|x)上,也就是根据给定一个观察值,给出这个值属于某个域的概率,这其实和我们正常的思维差不多,比如观察到一只狮子,要判断是美洲狮还是非洲狮?按照判别学习的思路,我们首先需要有一定的资料,机器学习上称为训练集,比如过去观察的一些狮子的特征什么的,这样

2017-04-06 20:16:59 269

转载 L0/L1/L2范数的联系与区别

L0/L1/L2范数的联系与区别最近快被各大公司的笔试题淹没了,其中有一道题是从贝叶斯先验,优化等各个方面比较L0、L1、L2范数的联系与区别。L0范数L0范数表示向量中非零元素的个数:||x||0=#(i) with  xi≠0也就是如果我们使用L0范数,即希望w的大部分元素都是0. (w是稀疏的)所以可以用于ML中做稀疏编码,特征选择。通过最小化L0范数,来寻找最少最优

2017-04-06 20:16:13 1328

原创 C++常见问题

50堆与栈的区别堆和栈的区别:  一、堆栈空间分配区别:  1、栈(操作系统):由操作系统自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈;  2、堆(操作系统): 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收,分配方式倒是类似于链表。  二、堆栈缓存方式区别:  1、栈使用的是一级缓存, 他们通常都是被调

2017-04-06 20:15:42 441

原创 八大排序

冒泡排序:public void BubbleSort(int[] x){       for(int i=1;ix.length;i++) //若数组长度为n,则执行n-1次“冒泡”即可(每次可找出剩余元素的最大值,剩下的一个为最小值)       {             for(int j=0;jx.length-i;j++) //执行第i次“冒泡”的时候在数组尾部已经

2017-04-06 20:13:16 219

原创 聚类

一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchical methods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法

2017-04-06 20:12:41 938

转载 特征选择与特征学习

在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。 在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特征工程的工作更加快速、

2017-04-06 20:11:07 1483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除