grimm_chen-CSDN博客

转载海量数据处理面试题

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为3

2017-04-17 08:33:30 270

转载浅析PCA

PART 1. 浅析PCA1_1 PCA概述PCA(Princile Component Analysis)，中文名叫做主成成分分析，它的主要理论是：线性组合输入空间，以期找到一组标准正交基，实现坐标变换。 PCA的主要应用有以下几点：降维去噪1_2 为什么要用PCA首先，为了引入PCA，我们介绍如下几个场景：设定因变量是学习成绩，自变量是学习时间、

2017-04-13 16:01:31 763

原创机器学习-损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+

2017-04-11 19:12:01 450 1

人工神经网络（Artificial Neural Network）又称连接机模型，是在现代神经学、生物学、心理学等学科研究的基础上产生的，它反映了生物神经系统处理外界事物的基本过程，是在模拟人脑神经组织的基础上发展起来的计算系统，是由大量处理单元通过广泛互联而构成的网络体系，它具有生物神经系统的基本特征，在一定程度上反映了人脑功能的若干反映，是对生物系统的某种模拟，具有大规模并行、分布式处理、自组

2017-04-10 14:23:33 130987 2

原创面试总结

阿里妈妈一面1、介绍推荐的论文2、大数据环境下，业界怎么做的推荐3、推导SVM4、100万个数怎么查询每个数出现的次数5、单向链表和双向链表的差别6、总共3000人，五十个面试官，每人有60个面试成绩，怎么选出600人进复试，现实可行的7、算法题：（1）反转字符串（2）中文拆词，匹配最大的短语，词最大长度为8，每个汉字占两个字节（注意越界问题）（3）中文

2017-04-06 20:19:08 291

转载入侵检测

IDS是计算机的监视系统，它通过实时监视系统，一旦发现异常情况就发出警告。IDS入侵检测系统以信息来源的不同和检测方法的差异分为几类：根据信息来源可分为基于主机IDS和基于网络的IDS，根据检测方法又可分为异常入侵检测和误用入侵检测。不同于防火墙，IDS入侵检测系统是一个监听设备，没有跨接在任何链路上，无须网络流量流经它便可以工作。因此，对IDS的部署，唯一的要求是：IDS应当挂接在所有所关注流量

2017-04-06 20:17:35 1871

原创生成模型和判别模型

对于样本的学习主要有两种方式，就是生成学习和判别学习。简单来说，根绝学习过程中的focus点来划分。对于判别学习，主要是focus在 p(y|x)上，也就是根据给定一个观察值，给出这个值属于某个域的概率，这其实和我们正常的思维差不多，比如观察到一只狮子，要判断是美洲狮还是非洲狮？按照判别学习的思路，我们首先需要有一定的资料，机器学习上称为训练集，比如过去观察的一些狮子的特征什么的，这样

2017-04-06 20:16:59 273

转载 L0/L1/L2范数的联系与区别

L0/L1/L2范数的联系与区别最近快被各大公司的笔试题淹没了，其中有一道题是从贝叶斯先验，优化等各个方面比较L0、L1、L2范数的联系与区别。L0范数L0范数表示向量中非零元素的个数：||x||0=#(i) with xi≠0也就是如果我们使用L0范数，即希望w的大部分元素都是0. （w是稀疏的）所以可以用于ML中做稀疏编码，特征选择。通过最小化L0范数，来寻找最少最优

2017-04-06 20:16:13 1334

原创 C++常见问题

50堆与栈的区别堆和栈的区别：　　一、堆栈空间分配区别：　　1、栈（操作系统）：由操作系统自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈；　　2、堆（操作系统）：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收，分配方式倒是类似于链表。　　二、堆栈缓存方式区别：　　1、栈使用的是一级缓存，他们通常都是被调

2017-04-06 20:15:42 441

原创八大排序

冒泡排序：public void BubbleSort(int[] x){ for(int i=1;ix.length;i++) //若数组长度为n，则执行n-1次“冒泡”即可（每次可找出剩余元素的最大值，剩下的一个为最小值） { for(int j=0;jx.length-i;j++) //执行第i次“冒泡”的时候在数组尾部已经

2017-04-06 20:13:16 222

原创聚类

一、层次聚类1、层次聚类的原理及分类1）层次法（Hierarchical methods）先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法

2017-04-06 20:12:41 949

转载特征选择与特征学习

在机器学习的具体实践任务中，选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集，具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中，数据通常是复杂冗余，富有变化的，有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识，不利于推广。于是我们需要通过机器来学习和抽取特征，促进特征工程的工作更加快速、

2017-04-06 20:11:07 1485

chengl920828的博客