![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
小赵10010
这个作者很懒,什么都没留下…
展开
-
top K问题
在大规模数据处理中,经常会遇到的一类问题:在海量数据中找出出现频率最好的前k个数,或者从海量数据中找出最大的前k个数,这类问题通常被称为top K问题。例如,在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载最高的前10首歌等。1、最容易想到的方法是将数据全部排序。该方法并不高效,因为题目的目的是寻找出最大的10000个数即可,而排序却是将所有的元素都排序了,做了很多的无用功。2、...转载 2019-05-23 17:50:29 · 125 阅读 · 0 评论 -
逻辑回归(LR)和支持向量机(SVM)
1. LR和SVM的联系(1) 都是监督的分类算法。(2)都是线性分类方法 (不考虑核函数时)。(3)都是判别模型。2. LR和SVM的不同(1)损失函数的不同,LR是对数损失函数,SVM是hinge损失函数。(2)SVM不能产生概率,LR可以产生概率。(3)SVM自带结构风险最小化,LR则是经验风险最小化。(4)SVM会用核函数而LR一般不用核函数。(5)LR和SVM在实际应用...原创 2019-09-02 11:24:10 · 283 阅读 · 0 评论 -
CNN
先记录下,后期整理机器学习算法之卷积神经网络CNNhttps://blog.csdn.net/sinat_35821976/article/details/78700377从零开始搭建神经网络(五)卷积神经网络(CNN)https://blog.csdn.net/sinat_35821976/article/details/81503953...转载 2019-08-31 22:00:25 · 355 阅读 · 0 评论 -
DNN、RNN、CNN
1、DNN(深度神经网络)神经网络是基于感知机的扩展,而DNN可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Multi-Layer perceptron,MLP)。DNN存在的局限:参数数量膨胀。由于DNN采用的是全连接的形式,结构中的连接带来了数量级的权值参数,这不仅容易导致过拟合,也容易造成陷入局部最优。局部最优。随...转载 2019-08-31 21:47:26 · 2930 阅读 · 0 评论 -
两个超大文件求交集
题目背景给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url主体思路分治+hash实现步骤遍历文件A,对每个url使用hash(url) % 1000,根据所得的取值将url存储到1000个小文件中(a1,a2,…,a1000)(根据内存大小设定hash函数)遍历文件B,使用同样的hash函数将B中的url存储到1000个小文...转载 2019-08-28 17:07:18 · 1765 阅读 · 0 评论 -
关于海量数据处理的各种常用数据结构
(1)哈希对于哈希,相信大家都不会陌生。其基本原理不再说明,哈希的一个关键点是哈希函数的选择,如何使映射结果更加均衡及冲突减少。关于哈希也有许多变种,如一致性哈希(详见http://www.cnblogs.com/dong008259/archive/2011/11/26/2264175.html)。海量数据处理中,哈希可用于快速查找及删除,通常需要总数据量可以放入内存中。哈希实例:海量日志数...转载 2019-07-30 10:09:40 · 705 阅读 · 0 评论 -
计算3的n次方
这道题很明显就是要用高精度算法,用数组来储存每一位,逢十进一需要我们自己去实现,输出时记得把前面的0去掉就好代码如下:#include<iostream> using namespace std; int main(){ int a[200]={1,}; int num; cin >> num ; while(num--){ for(int i =...转载 2019-07-24 10:17:55 · 5271 阅读 · 0 评论 -
海量数据处理之BitMap原理
一:简介所谓的BitMap就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了bit为单位来存储数据,因此在存储空间方面,可以大大节省。二:基本思想我们用一个具体的例子来讲解,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用BitMap的方法来达到排序的目的。要表示8个数,我们就只需要8个bit(1Byte...转载 2019-07-03 10:59:17 · 870 阅读 · 0 评论 -
最大化期望算法(EM)详解
EM算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者最大后验估计的算法。1. 最大似然估计最大似然其实基本的原理非常简单,假设我们手里现在有一个样本,这个样本服从某种分布,而分布有参数,可如果我现在不知道这个样本分布的具体参数是多少,我们就想要通过抽样得到的样本进行分析,从而估计出一个较准确的相关参数。以上,这种通过抽样结果反推分布参数的方法就是“最大似然估计”。现在简...转载 2019-07-08 15:35:10 · 705 阅读 · 0 评论 -
牛顿迭代法(C++)
牛顿迭代法(C++)假设我们求解的方程为:则可知实现 int sqrt(int x) 函数。计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例 1:输入: 4输出: 2示例 2:输入: 8输出: 2说明: 8 的平方根是 2.82842..., 由于返回类型是整数,小数部分将被舍去。...原创 2019-06-10 16:30:07 · 4046 阅读 · 0 评论 -
动态规划
动态规划通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题。基本思想若要解一个给定问题,我们需要解其不同部分(即子问题),再合并子问题的解以得出原问题的解。 通常许多子问题非常相似,为此动态规划法试图仅仅解决每个子问题一次,从而减少计算量: 一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。...转载 2019-06-05 17:40:33 · 126 阅读 · 0 评论 -
top K问题 (从1000个数据中找到k个最大数据)
思路:可先创建一个数组topK[k],将1000中的前k个数据放入数组topK中,将topK中的数据建小堆,则可保证堆的第一个元素是最小的,将第k个元素与堆中第一个元素比较,若大于,则交换。对堆进行重新建小堆,取第k+1个元素与堆中第一个元素比较,以此类推,直至1000-k个元素比较完。则此时堆中的元素就是k个最大数据。const int N = 1000;const int K = 100...转载 2019-05-23 17:58:23 · 773 阅读 · 0 评论 -
卡尔曼滤波
卡尔曼滤波https://blog.csdn.net/phker/article/details/48468591转载 2019-09-02 23:14:51 · 97 阅读 · 0 评论