2020年03月_一种tang两种味

原创商汤科技2018校招C /算法笔试题

交换机主要工作在（）？网络层是路由器，数据链路层是交换机，物理层是光纤，传输层是TCP/UDP协议！完全二叉树完全二叉树除最后一层外都是满的，所以也可以这么算：第一层1个节点，令层数为n，除最后一层外，每层的节点个数为2^(n-1)，有330个叶子节点，所以倒数第二层为第9层，有256个节点，256+x=330得x=74,所以共有1+2+4+8+16+32+64+128+256+74*2=...

2020-03-27 21:49:55 504

原创滴滴-2019+快手2020（A）-校园招聘算法工程师笔试题

在什么情况需要对特征使用归一化处理？要解决这个问题首先要看归一化的作用：1.归一化可以加快梯度下降法求解最优解的速度。当特征之间的数值变化范围相差太大时，会使得收敛路径呈Z字型，导致收敛太慢，或者根本收敛不到最优解的结果。2.归一化可以提高计算精度。一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖...

2020-03-27 11:37:58 5542

原创 360公司-2019校招笔试-机器学习工程师客观题错题合集

KNN算法中K值对分类效果影响较为显著，一般K值较大时，对噪声比较敏感。（X）朴素贝叶斯算法对缺失数据特别敏感，事先需要知道先验概率。SVM算法可以解决高维问题。提高泛化性能。集成学习算法存在过拟合、鲁棒性不强等问题。KNNK值得选取非常重要，因为：如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减...

2020-03-26 18:28:15 7754

原创大厂数据结构与算法题总结

sys.stdin.readline()和input()的区别sys.stdin.readline( )会将标准输入全部获取，包括末尾的’\n’，input()会把‘\n’忽略import sysprint('Plase input your name: ')name = sys.stdin.readline()print('Hello ', len(name))...

2020-03-25 10:00:25 308

原创数据常用预处理教程详解（sklearn，numpy，pandas）

log1p log1p = log(x+1) 即ln(x+1) expm1 = exp(x)-1log1p函数有它存在的意义，即保证了x数据的有效性，当x很小时（如两个数值相减后得到x = 10^{-16}），由于太小超过数值有效性，用log(x+1)计算得到结果为0，换作log1p则计算得到一个很小却不为0的结果，这便是它的意义（用泰勒公式来展开运算的）。对于...

2020-03-20 15:37:59 1933

原创推荐系统之ALS算法详解

ALS算法是2008年以来，用的比较多的协同过滤算法。它已经集成到Spark的Mllib库中，使用起来比较方便。从协同过滤的分类来说，ALS算法属于User-Item CF，也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系，可以抽象为如下的三元组：<User,Item,Rating>。其中，Rating是用户对商品的评分，表征用户对该商品的喜好程度。ALS...

2020-03-11 14:42:46 17006

原创基于关联规则的推荐算法详解(Apriori 、FP−Growth)

关联规则分析也是一种比较常见的推荐算法，主要是根据历史数据统计不同规则出现的关系，比如：X−>Y X->YX−>Y，表示X XX事件发生后，Y YY事件也会有一定概率发生。关联规则分析最著名的就是“啤酒-尿布”的经典案例，沃尔玛的超市管理人员通过数据发现，很多买尿布的人大概率事件会去购买啤酒。这是因为在美国很多妈妈在家带孩子，所以去超市买尿布的任务就交给了爸爸...

2020-03-11 14:11:51 5408

原创推荐系统算法（MF、FM、CF、SVD、LFM、SVD++、TItemCF、timeSVD++、模型融合）

1.传统的SVD分解对于如何补全一个矩阵，历史上有过很多的研究。一个空的矩阵有很多种补全方法，而我们要找的是一种对矩阵扰动最小的补全方法。那么什么才算是对矩阵扰动最小呢？一般认为，如果补全后矩阵的特征值和补全之前矩阵的特征值相差不大，就算是扰动比较小。所以，最早的矩阵分解模型就是从数学上的SVD（奇异值分解）开始的。给定m个用户和n个物品，和用户对物品奇异值分解将矩阵分解为奇异值和奇异向量...

2020-03-11 11:17:59 7537 2

原创协同过滤算法详解

一、协同过滤算法简介协同过滤算法是一种较为著名和常用的推荐算法，它基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐。也就是常见的“猜你喜欢”，和“购买了该商品的人也喜欢”等功能。它的主要实现由：●根据和你有共同喜好的人给你推荐●根据你喜欢的物品给你推荐相似物品●根据以上条件综合推荐因此可以得出常用的协同过滤算法分为两种，基于用户的协同过滤算法(user-b...

2020-03-10 21:55:41 36386 1

原创神经网络之LSTM算法详解（Long short-termmemory ）

前馈神经网络VS 反馈神经网络在深度学习领域，传统的前馈神经网络（feed-forward neural net，简称FNN）具有出色的表现，取得了许多成功，它曾在许多不同的任务上——包括手写数字识别和目标分类上创造了记录。甚至到了今天，FNN在解决分类任务上始终都比其他方法要略胜一筹。尽管如此，大多数专家还是会达成共识：FNN可以实现的功能仍然相当有限。究其原因，人类的大脑有着惊人的计算功能...

2020-03-10 21:26:30 4966

原创 FM算法详解（因子分解机）

1. 什么是FM？FM即Factor Machine，因子分解机。任意的 N×N 实对称矩阵都有 N 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵 A 可被分解成：其中，Q为正交矩阵，Λ为实对角矩阵。2. 为什么需要FM？1、特征组合是许多机器学习建模过程中遇到的问题，如果对特征直接建模，很有可能会忽略掉特征与特征之间的关联信息，...

2020-03-10 21:12:27 5890

原创 LightGBM算法详解(教你一文掌握LightGBM所有知识点)

LigthGBM是boosting集合模型中的新进成员，由微软提供，它和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用catego...

2020-03-10 19:28:11 64069 11

原创推荐系统之LFM算法详解

个性化召回召回：从item中选取一部分作为候选集1）不同的用户喜欢不同的item2）部分作为候选集，降低系统的负担根据用户的属性行为上下文等信息从物品全集中选取其感兴趣的物品作为候选集；召回的重要作用：召回决定了最终推荐结果的天花板个性化召回解析分三种：1.基于用户行为2.基于user profile3.基于隐语义的 LFM工业届个性化召回架构：个性化召回算法LFM（latent...

2020-03-10 15:42:28 10202 1

原创 kaggle推荐知识点

推荐系统在不同领域的应用实例：1.图书影音：Netflix、Youtube、MovieLens、豆瓣、网易云音乐2.新闻资讯：Google News、今日头条、知乎、Hulu3.人际社交：Facebook、Twitter、微博、人人网4.旅游出行：Wanderfly、TripAdvisor、蚂蜂窝、去哪儿5.电商零售：亚马逊、淘宝、天猫、京东...

2020-03-08 13:37:39 648

原创音乐推荐系统

线下能做的全部做好，当你想看的时候只是把结果取出来！不然临时算吃不消，python线上一般要用到分布式，java可能比python快一点1.针对用户推荐网易云音乐（每日30首歌/7首歌）2.针对歌曲在你听某首歌的时候，找“相似歌曲”1歌曲和歌曲之间的相似度是可以离线算好的，但是用户现在和以前的一般没法离线算好的，用户的兴趣随着时间推移会发生变化的！在推荐系统的建模过程中，我们将用到pyth...

2020-03-06 21:12:31 5663

原创 Python所有重要知识点（教你把python3拿捏得死死的）

python的特性Python是动态类型的，这意味着你不需要在声明变量时指定类型。你可以先定义x=111，然后 x=”I’m a string”，一点问题也不会有。Python是面向对象语言，所有允许定义类并且可以继承和组合。Python没有访问访问标识如在C++中的public, private, 这就非常信任程序员的素质，相信每个程序员都是“成人”了~在Python中，函数是一等公民。这...

2020-03-05 18:37:33 847

原创机器学习中常见的最优化算法

梯度下降法（Gradient Descent）梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢...

2020-03-05 15:23:09 1868

原创协方差和相关性的区别和联系

协方差：相关性是协方差的标准化格式。协方差本身很难做比较。例如：如果我们计算工资和年龄的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差。或写成：该公式可以有如下理解：如果有X,Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积，再对这每时刻的乘积求和并求出均值（其实是求“期望”，但就不引申太多新概念了，简单认为就是求均值了）。注：...

2020-03-05 11:27:57 9344

原创 Tensorflow 使用总结(精华)

首先理解Tensorflow的计算模型-计算图如果说TensorFlow的第一个词Tensor表明了它的数据结构，那么Flow则体现了它的计算模型。Flow翻译成中文就是“流”，它直观地表达了张量之间通过计算相互转化的过程。TensorFlow是一个通过计算图的形式来表述计算的编程系统，TensorFlow中的每一个计算都是计算图上的一个节点，而节点之间的边描述了计算之间的依赖关系。图3-1展...

2020-03-04 20:45:03 406

原创 Tensorflow的并行计算

每个GPU上的模型相同，喂以相同模型不同的训练样本。数据并行根据参数更新方式的不同又可以分为同步数据并行和异步数据并行。1、同步更新每个GPU根据loss计算各自的gradient，汇总所有GPU的gradient，求平均梯度，根据平均梯度更新模型参数，具体过程见下图。所以同步数据并行的速度取决于最慢的GPU，当各个GPU的性能相差不大时适用。在同步更新的时候，每次梯度更新，要等所有分发出...

2020-03-04 18:44:03 566 1

原创何时使用tensorflow及它所面临的挑战

何时使用tensorflow·研究、开发和迭代新的机器学习架构。由于TensorFlow极为灵活，因此在构建新颖的、测试较少的模型时非常有用。而使用某些库时，用户只能获取对实现原型有帮助的具有较强刚性的预建模型，而无法对其进行修改。将模型从训练直接切换到部署。如前所述，TensorFlow Serving使用户可实现训练到部署的快速切换。因此，在创建依赖于机器学习模型的产品时，使用Tens...

2020-03-04 18:29:13 193

原创 TensorFlow中的计算图

1 什么是计算图？一个机器学习任务的核心是模型的定义以及模型的参数求解方式，对这两者进行抽象之后，可以确定一个唯一的计算逻辑，将这个逻辑用图表示，称之为计算图。计算图表现为有向无环图，定义了数据的流转方式，数据的计算方式，以及各种计算之间的相互依赖关系等。2 计算图的基本组成TensorFlow的计算图粒度比较细，由节点和有向边组成（后来也加入了层）。相比之下，腾讯的开源机器学习平台Ang...

2020-03-04 18:21:05 474

原创 tensorflow的优势

1.易用性·相对而言，TensorFlow工作流易于理解。它的API保持着高度的一致性，这意味着在尝试不同模型时，无需从头学习一套新的东西。·TensorFlowAPI很稳定，维护者始终在努力确保每次改动都向下兼容。·TensorFlow与NumPy无缝集成，可使大多数了解Python的数据科学家如鱼得水。·不同于其他库，TensorFlow不占编译时间。这就使用户可快速验证自己的想法，而...

2020-03-04 18:09:54 5919

原创机器学习项目的一般流程

1 理解实际问题。将实际问题抽象为机器学习能处理的数学问题，理解实际业务场景问题是机器学习的第一步。机器学习的特征工程和模型训练通常都是一件非常耗时的过程，胡乱尝试时间成本是非常高的。深入理解要处理的问题，能避免走很多弯路。理解问题，包括明确可以获得什么样的数据，机器学习的目标是一个分类、回归还是聚类。如果都不是的话，要考虑将它们转变为机器学习问题。2 获取数据获取数据包括获取原始数据以及从...

2020-03-02 19:06:31 305

原创 PCA的原理、目标函数及求解方法。

首先解释下什么是降维：PCA旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。举一个简单的例子，在三维空间中有一系列数据点，这些点分布在一个过原点的平面上。如果我们用自然坐标系x，y，z三个轴来表示数据，就需要使用三个维度。而实际上，这些点只出现在一个二维平面上，如果我们通过坐标系旋转变换使得数据所在平面与x，y平面重合，那么我们就可以通过x’，y’两个维度表达原始数据，...

2020-03-01 20:47:54 3495

原创 L1正则化使得模型参数具有稀疏性的原理。

角度1：解空间形状。面试者给出的答案多数也是从这个角度出发的。在二维的情况下，黄色的部分是L2和L1正则项约束后的解空间，绿色的等高线是凸优化问题中目标函数的等高线，如图7.6所示。由图可知，L2正则项约束后的解空间是圆形，而L1正则项约束的解空间是多边形。显然，多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。但是为什么为什么加入了L1正则项就是定义了一个解空间约束？为什么L1和L2的解空...

2020-03-01 20:01:10 1894

原创 Accuracy的局限性及AUC和PR曲线的对比

当正负样本极度不均衡时存在问题！比如，正样本有99%时，分类器只要将所有样本划分为正样本就可以达到99%的准确率。但显然这个分类器是存在问题的。当正负样本不均衡时，常用的评价指标为ROC曲线和PR曲线。ROC接受者操作特征曲线，其显示的是分类器的TPR和FPR之间的关系，如下图所示：具体方法是在不同的分类阈值 (threshold) 设定下分别以TPR和FPR为纵、横轴作图。曲线越靠近左上角，...

2020-03-01 17:43:57 1498

原创梯度消失和梯度爆炸及其解决方案

1.梯度消失根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，在经过足够多层传播之后，误差对输入层的偏导会趋于0。这种情况会导致靠近输入层的隐含层神经元调整极小。2.梯度膨胀根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大。这种情况又会导致靠近输入层的隐含层...

2020-03-01 17:40:48 403

原创从偏差和方差的角度解释bagging和boosting的原理

首先解释下什么是集成学习集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习。只包含同种类型的个体学习器，这样的集成是“同质”的；包含不同类型的个体学习器，这样的集成是“异质”的。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”（弱学习器常指泛化性能略优于随机猜测的学习器）尤为明显。要获得好的集成，学习器之间要具有差...

2020-03-01 17:38:48 2672

原创 LR与线性回归的区别与联系

1.LR 与线性回归都是广义的线性回归；2.线性回归模型的优化目标函数是最小二乘，而 LR 则是似然函数；3.线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。4.逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的...

2020-03-01 17:34:10 1555

原创 LR和SVM的联系与区别。

联系：1.LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）都是有监督的分类算法；如果考虑核函数，LR和SVM都是线性分类算法。2.LR和SVM都是判别式模型。LR、SVM、决策树等判别式模型直接生成一个表示P(Y|X)或者Y=f(X)的判别函数3两个方法都可以增加不同的正则化项，如L1、L2等等。所以在很多实验中，两种算法的结果是很接近的。...

2020-03-01 17:29:47 395

原创过拟合和欠拟合的解决办法。

Underfitting清洗数据，增加数据根据先验知识对数据扩充变换，增加特征删除噪音特征调低正则项的惩罚参数换更“复杂”的模型（如把线性模型换为非线性模型）多个模型级联或组合（集成学习）迁移学习（借用大模型进行微调）Overfitting增加数据根据先验知识对数据扩充变换，生成对抗网络，进行特征选择降维（如对特征进行聚类、主题模型进行处理等）Dropout方法提高正则项的...

2020-03-01 17:25:20 206

原创特征工程的具体介绍。

特征工程是使用数据的领域知识来创建使机器学习算法工作的特征的过程。特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。当你想要你的预测模型性能达到最佳时，你要做的不仅是要选取最好的算法，还要尽可能的从...

2020-03-01 17:18:55 294

原创 SVM的具体介绍

SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。支持向量机的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法（实际上还有多分类），在引入了核方法之后SVM也可以用来解决非线性问题。它的基本学习策略是间隔最大化，可...

2020-03-01 17:12:03 3908

原创 XGBoost和GBDT的优缺点及XGBoost可并行的原因。

1）防止过拟合传统的GBDT是以CART作为基分类器，xgboost除了以cart还支持线性分类器，这个时候XGBOOST相当于带L1和L2正则化的逻辑斯蒂回归（分类问题）或者线性回归（回归问题），并且还支持hadoop分布式计算。xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score是L2模的平方和。使学习出来的模型更加简单...

2020-03-01 16:54:04 2678

GFDGFHSDS的博客