机器学习
文章平均质量分 69
苏学算法
这个作者很懒,什么都没留下…
展开
-
反向传播 BP 理解
反向传播的理解原创 2022-09-09 10:18:33 · 553 阅读 · 0 评论 -
深度学习调参技巧合集
本文参考自公众号【 夕小瑶的卖萌屋】的文章一、寻找合适的学习率学习率是一个非常非常重要的超参数,这个参数呢,面对不同规模、不同 batch-size、不同优化方式、不同数据集,其最合适的值都是不确定的,我们无法光凭经验来准确地确定lr的值,我们唯一可以做的,就是在训练中不断寻找最合适当前状态的学习率。比如下图利用 fastai 中的 lr_find() 函数寻找合适的学习率,根据下方的学习率-损失曲线得到此时合适的学习率为 1e-2。推荐一篇fastai首席设计师「Sylvain Gugger.原创 2022-03-26 22:39:22 · 1200 阅读 · 0 评论 -
numpy和matplotlib绘制直方图 histogram
一、matplotlib 自带函数实现matplotlib有一个简单的函数 plt.hist(a, bins=num_bins),可以直接绘制直方图,如下#!/usr/bin/env python# coding=utf-8import matplotlib.pyplot as pltimport numpy as np"""绘制直方图data:必选参数,绘图数据bins:直方图的长条形数目,可选项,默认为10normed:是否将得到的直方图向量归一化,可选项,默认为0,代表不归一化,原创 2022-03-14 17:03:33 · 8382 阅读 · 0 评论 -
AUC计算python实现
#!/usr/bin/env python# coding=utf-8import numpy as npfrom sklearn.metrics import roc_curvefrom sklearn.metrics import aucdef auc_calculate(labels,preds,n_bins=100): postive_len = sum(labels) negative_len = len(labels) - postive_len tota原创 2021-12-16 11:29:44 · 1556 阅读 · 0 评论 -
保姆级讲解|逻辑回归(LR)与最大熵模型
本文是笔者初学时的推导笔记,极其详细,可谓“保姆级”详细推导,看不懂的来打我好吧 ???? ???? ????另外,觉得前面在讲废话到可以直接跳到第三章???? ???? ????之前的一篇文章 交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别? ,其中就涉及到逻辑回归,那么今天,我就把逻辑回归掰开了揉碎了再讲一遍本篇公式过多,导致编辑器直接卡死好几次,来个三连一点都不过分好吧 ???? ???? ????为了引出逻辑回归,先从最简单的线性回归开始讲起…一、直观理解1.原创 2021-10-07 20:17:30 · 288 阅读 · 0 评论 -
收藏版|史上最全机器学习优化器Optimizer汇总
虽然起了个“标题党”的题目,不过总有疏漏之处和不当之处,烦请留言告知前言首先,为什么需要优化器(Optimizer)这个东西呢,因为许多问题都是需要“优化”的(当然也包括未来35岁的你我????)。人生中,你经历的很多事都可以有一个目标函数(诸如买到房子,找到对象,生个娃,再“鸡”个娃,再买个房子,再帮他找个对象…),那么有了目标,就需要进行求解,也就是优化。如果你的目标很简单,就像一个沙盘大小,那你可以一眼就看出沙盘的最低点(或者最高点)在哪,也就是最优解;但是,如果你的目标函数是一个撒哈拉沙漠,你原创 2021-10-04 15:33:36 · 761 阅读 · 1 评论 -
超详细|算法岗的学习路线大总结|机器学习|深度学习|CV、NLP、推荐
祝大家中秋快乐啊,假期宅家,总结一波前言上一篇 论机械狗如何硬卷算法岗 主要从宏观的角度分享了非科班转算法的历程,本篇将分析具体的算法岗学习路线笔者非科班出身,基础还相对薄弱,本文肯定会有诸多错误或者疏漏,欢迎指出和补充。算法岗的面试主要分为四大项,具体顺序可能因面试官而异Coding,给你一道题限时完成机器学习 or 深度学习基础论文 or 项目介绍其他问题 & 向面试官提问本文将从以上四点进行展开一、数据结构 & 算法题随着算法岗越来越卷,Coding几乎成了面原创 2021-09-21 22:08:35 · 1164 阅读 · 0 评论 -
AUC / uAUC
参考:机器学习中的评估指标原创 2021-01-19 18:30:03 · 4163 阅读 · 0 评论 -
卡方检验(Chi_square_test): 原理及python实现
参考:卡方检验(Chi_square_test): 原理及python实现原创 2020-12-29 18:10:01 · 1604 阅读 · 1 评论 -
joblib加载模型报错 ModuleNotFoundError: No module named ‘lib‘
文件目录树如下:som-- train(保存模型) -- lib -- minisom.py -- predict(加载模型)报错信息:Traceback (most recent call last): File "D:/SOM/self_organizing_maps/predict/test_som_predict.py", line 55, in <module> model = joblib.load(filename=file_path) Fi原创 2020-12-29 12:44:47 · 6036 阅读 · 0 评论 -
(机器学习)sklearn降维算法PCA(用几个小案例详解PCA降维)
参考:(机器学习)sklearn降维算法PCA(用几个小案例详解PCA降维)原创 2020-12-06 21:55:27 · 279 阅读 · 0 评论 -
特征离散化(分箱)综述
参考:特征离散化(分箱)综述原创 2020-11-26 21:36:01 · 328 阅读 · 0 评论 -
梯度下降优化算法概述
参考:An overview of gradient descent optimization algorithms原创 2020-11-25 18:26:00 · 138 阅读 · 0 评论 -
L1 相比于 L2 为什么容易获得稀疏解?
参考:L1正则化引起稀疏解的多种解释原创 2020-11-25 18:13:50 · 314 阅读 · 0 评论 -
在线最优化求解
参考:微博 冯扬 写的“在线最优化求解”在线最优化求解原创 2020-11-25 17:11:06 · 305 阅读 · 0 评论 -
CTR预估模型演进笔记
一、Logistic Regression,LR逻辑回归作为广义线性模型的一种,假设 yyy 服从伯努利分布。其概率质量函数为:fX(x)=px(1−p)1−x={p if x=1q if x=0f_{X}(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}p & \text { if } x=1 \\q & \text { if } x=0\end{array}\right.fX(x)=px(原创 2020-11-25 14:36:42 · 370 阅读 · 0 评论 -
mac安装xlearn遇到的cmake问题
pip install Cmakepip insatll xlearn原创 2020-11-22 21:16:47 · 142 阅读 · 0 评论 -
无监督算法——自组织映射算法(Self-Organizing Map , SOM)
参考:(详细过程推导) 系统学习机器学习之神经网络(四) --SOM原创 2020-11-09 20:54:30 · 2299 阅读 · 0 评论 -
主成分分析(PCA)原理与故障诊断(SPE、T^2以及结合二者的综合指标)- Python实现
参考:主成分分析(PCA)原理与故障诊断(SPE、T^2以及结合二者的综合指标)-MATLAB实现百度文库 基于pca的故障诊断原创 2020-11-05 15:52:14 · 5807 阅读 · 3 评论 -
【面经】腾讯 AiLab 机器学习算法工程师 一面
今天早上起来一看官网,状态从初试变成了复试昨晚面试的,时间是2020-10-19 20:30,本来想着这么晚了还面试(虽然今年BBAT都还没开奖,但是笔记十月底了,今年是怎么了…),不会是KPI吧,如果还有HC,那不是部门不太好就是部门要求太高,找不到合适的人选。而且由于腾讯的面试邀请链接只能看到 “基础研究”,看不到被捞的部门,所以面试一开始,我先一通问,他们的部门,架构啥的,做啥方向的。。。(但是还没自我介绍就这么问其实有点不太礼貌)结合最后提问环节得知大概情况是这样,他们是 TEG-AiLab-原创 2020-10-20 10:47:11 · 2474 阅读 · 2 评论 -
为什么逻辑回归(Logistic Regression, LR) 是线性模型
参考:看了这个解释,终于明白线性回归模型了逻辑回归到底是线性的还是非线性的?原创 2020-10-19 11:49:32 · 2593 阅读 · 0 评论 -
numpy.array 二维矩阵删除特定的某些行或者列
import numpy as npa = np.array([[0,2, 0], [0,5, 0], [0,8, 0]])del_index = []for col in range(3): if a[0][col] == 0: del_index.append(col)print(del_index)a = np.delete(a, del_index, axis = 1) # axis=1 删除列,axis=0原创 2020-10-18 11:24:58 · 3828 阅读 · 0 评论 -
keras训练完模型,为什么对训练集进行evaluate和训练时的loss完全不一样
参考:keras训练完模型,为什么对训练集进行evaluate和训练时的loss完全不一样?白训练了吗?model.evaluate() gives a different loss on training data from the one in training process #6977原创 2020-10-14 22:28:06 · 1357 阅读 · 0 评论 -
连续小波变换(Continuous wavelet transform, CWT)Python 实现
"""连续小波变换 CWT参考论文:https://www.mdpi.com/2076-3417/8/7/1102/htmlmorlet 小波在轴承故障诊断中比较常用"""import numpy as npimport pywtimport matplotlib.pyplot as pltimport pandas as pdimport mathimport osdef CWT(data, fs=25600): t = np.arange(0, len(data)) /原创 2020-10-12 21:59:36 · 7041 阅读 · 26 评论 -
机械振动信号 常见时域、频域特征提取 Python 代码
''' ============== 特征提取的类 =====================时域特征 :11类频域特征 : 13类总共提取特征 : 24类参考文献 英文文献 016_C_(Q1 时域和频域共24种特征参数 ) Fault diagnosis of rotating machinery based on multiple ANFIS combination with GAs'''import numpy as npimport scipy.statsimport m原创 2020-10-12 11:00:47 · 17038 阅读 · 41 评论 -
旋转机械(轴承等)故障诊断公开数据集
参考:github链接原创 2020-10-06 11:55:50 · 3691 阅读 · 3 评论 -
A有 n+1 个硬币,B有 n 个硬币,A比B得到更多的正面朝上的概率是多少?
美团金融服务事业部,机器学习算法二面题目描述甲有 n+1 枚硬币,乙有 n 枚硬币,求甲掷出的正面数比乙掷出的正面数多的概率 ?那如果甲有n+2枚呢?解法一甲有 n+1 枚硬币,乙有 n 枚硬币,甲和乙各抛 n 次,甲掷出的正面数等于乙抛出正面数,要想甲比乙多,甲必须再抛出一个正面,甲抛出正面概率 P=0.5 ,所以,甲比乙多的概率0.5.当甲有n+2次,那么最后2次,至少1次正面即可,所以概…解法二设事件A:“甲抛出的正面比乙抛出的正面多”事件B:“甲抛出的反面比乙抛出的反面多”显原创 2020-09-28 21:42:03 · 4250 阅读 · 3 评论 -
标准化和归一化 超全详解
一、标准化 / 归一化定义归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。首先定义常见的结构化数据表格,第一行的表头是表示各种特征,而后每一列表示某种特征的所有数值。无论标准化还是归一化都是针对某个特征(某一列)进行操作的。1. 归一化就是将训练集中某一列数值特征(假设是第 iii 列)的值缩放到0和1之间。方法如下所示:xi−min(xi)max(xi)−min(xi)\frac{x_{i}-\min \left(x_{i}\rig原创 2020-09-03 21:48:21 · 23239 阅读 · 3 评论 -
【面经】第四范式机器学习算法 一面
一、项目介绍比较常规,没有挖很深二、手撕代码【LeetCode】215. 数组中的第K个最大元素(高频!字节面试题)&变形(列表是单峰)【LeetCode】39. 组合总和 & 40. 组合总数 II & 216. 组合总和 III & 1~n 这n个数组合成 m...原创 2020-09-03 17:15:24 · 1232 阅读 · 0 评论 -
【面经】360算法一面
一、项目介绍PPO 的 p 和 q 分布如何控制KL 散度强化学习如何在广告推荐上使用,如何提高实时性RNN 中的 Attention随机森林(决策树)、GBDT、LR 的特征是否需要归一化二、手撕代码【LeetCode】112. 路径总和(二叉树是否存在和为 target的路径) & 113. 路径总和 II(找到所有满足的路径)& 437. 路径总和 III...原创 2020-09-03 11:27:49 · 534 阅读 · 0 评论 -
【面经】字节跳动 Data 算法三面
一、手撕代码【LeetCode】311. 稀疏矩阵的乘法【概率】甲乙射击比赛,单局甲胜率0.6,3局2胜和5局3胜两种赛制甲如何选择?无限多局,甲获胜概率?二、计算机基础 & 神经网络进程和线程神经网络的权值都初始化为 0.1 行不行答案:为什么神经网络参数不能全部初始化为全0?PPO 介绍内联函数和宏答案:内联函数以及它和宏的区别三、项目介绍着重讲自己做的工作...原创 2020-09-03 00:19:30 · 1520 阅读 · 0 评论 -
【概率】甲乙射击比赛,单局甲胜率0.6,3局2胜和5局3胜两种赛制甲如何选择?无限多局,甲获胜概率?
一、题目描述甲乙射击比赛,单局甲胜率0.6,3局2胜和5局3胜两种赛制甲如何选择?无限多局,甲获胜概率?二、解题思路本题考查相互独立事件同时发生的概率.每局比赛只有两个结果,甲获胜或乙获胜,每局比赛可以看成是相互独立的.Cnm=Anmm!=n!m!(n−m)!C_{n}^{m}=\frac{A_{n}^{m}}{m !}=\frac{n !}{m !(n-m) !}Cnm=m!Anm=m!(n−m)!n!解法一(1)在采用3局2胜制中,甲获胜包括两类互斥事件,即3次独立重复试验中,甲获胜原创 2020-09-03 00:21:59 · 3987 阅读 · 0 评论 -
RF、GBDT、XGBoost 面试笔记
由于本文是基于面试整理,因此不会过多的关注公式和推导,如果希望详细了解算法内容,敬请期待后文。 RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:Boosting:个体学习器之间存在强依赖关系、必须串行生成的序列化方法,Bagging和“随机森林”(Random Forest):个体学习器间不存在强依赖关系、可同原创 2020-09-03 00:23:05 · 1651 阅读 · 0 评论 -
【面经】字节跳动 Data 算法一面、二面
一二面连着从 7:30 面到 22:18第一次到达字节面试的二面,说多了都是泪…1. 手撕代码【LeetCode】148. 排序链表(字节算法一面)【LeetCode】215. 数组中的第K个最大元素(高频!字节面试题)需要手写小顶堆,不能用库函数2. 项目问到各种边边角角,可见多参加面试,不断熟悉自己的项目的重要性!...原创 2020-08-25 22:56:33 · 1641 阅读 · 0 评论 -
【面经】京东搜索广告算法一面
一面面了 2 个小时,把项目问了个底朝天1. 项目面试官问的超级细,问到底朝天的那种,一个项目问了一个小时激活函数选啥调参2. 手撕代码1、 删除字符串中连续重复的字符只保留一个字符(比如:“aabbadc” -> “abadc”, “aaaaadcbad” -> adcbad)要求空间复杂度O(1)remove2() 有问题,因为 python 没办法做字符串的赋值,后续再完善def remove(s): new_s = [] for i in range(le原创 2020-08-25 12:49:26 · 965 阅读 · 0 评论 -
小波包分解
参考:小波与小波包、小波包分解与信号重构、小波包能量特征提取 暨 小波包分解后实现按频率大小分布重新排列(Matlab 程序详解)原创 2020-08-20 16:25:11 · 2052 阅读 · 0 评论 -
包络谱分析和希尔伯特变换(Hilbert transform)
参考:希尔伯特变换将信号表示为复解析信号的物理意义是什么?希尔伯特变换和瞬时频率问题–连载(二)原创 2020-08-18 21:44:49 · 7555 阅读 · 0 评论 -
【面经】寒武纪算法一面
这个岗位偏底层,而且是 C++,做算法 API 的底层实现,面试官一直问愿不愿意搞底层基础问题卷积具体计算公式反卷积公式虚函数多态Depthwise卷积与Pointwise卷积Pooling 具体实现和作用原创 2020-08-14 18:56:36 · 888 阅读 · 0 评论 -
【面经】好未来二面面经
1. 项目介绍问了注意力机制的 trick2. 手撕代码【剑指offer】43. 1~n整数中1出现的次数(好未来算法二面)明明面的好好的,题也很快做出来,就是不知道为啥被挂…原创 2020-08-14 17:04:49 · 800 阅读 · 0 评论 -
【面经】美团算法一面
1. 介绍项目问 DDPG2. 计算机基础线程和进程的区别进程锁:两个进程都在等待资源,就掐起来了3. 手撕代码【LeetCode】236. 二叉树的最近公共祖先(普通二叉树,不一定是二叉搜索树)原创 2020-08-13 21:52:15 · 748 阅读 · 0 评论