- 博客(59)
- 收藏
- 关注
转载 零次学习入门
https://www.zhihu.com/tardis/zm/art/34656727?source_id=1003从知乎转载,原文没有收藏按钮
2023-04-25 15:02:29 96
转载 lora对sd精调
Using LoRA for Efficient Stable Diffusion Fine-TuningGitHub - cloneofsimo/lora: Using Low-rank adaptation to quickly fine-tune diffusion models.
2023-04-24 20:01:25 259
原创 dlib retrain dlib_face_recognition_resnet_model_v1.dat
然后去调用./dnn_metric_learning_on_images_ex ../johns。后续就把johns目录下的所有文件夹全部删除,然后建立你自己的文件夹。官方推荐如果你想要训练一个好的模型,可以调整300到10000。文件夹1/图片1.jpg,文件夹1/图片2.jpg。文件夹2/图片3.jpg,文件夹2/图片3.jpg。每一个文件夹代表一类,这一类下面的图片都是一个人。训练将会在没有增益的300次结束。之前的步骤可以看这篇文档。
2023-04-11 17:55:17 399 1
原创 关于评分卡的阅读理解
下图是一个模型demo。低分段的区分能力较好。有两个原因,第一,低分段的客户确实很多,sample_cnt有1059个,占了所有用户的20.98%。但是哪怕去掉最后一档,类似坏账率还是达到了50.6%,而且这是以7天作为表现期的标签。真实的逾期触发是51%左右,哪怕去掉最后2挡,7天内的还款也只有5%左右。从坏账率来看,排序性是还可以的。但是看odds,最高分段的只有5.06,...
2019-07-08 15:53:54 270
转载 GBDT
什么是GBDT?GBDT(梯度提升树),是一个以回归树为基学习器,以boost为框架的加法模型的集成学习。GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再...
2019-02-25 12:01:27 12669
转载 Random Forest
什么是Random Forest?Random Forest是一个基于Bagging算法的,以CART(广义定义上是弱分类器如SVM,LR都可以)为基学习器,以优化方差为学习目标的的集成学习模型。可以使用上回归和分类两种场景下:在回归下,使用简单平均法。在分类下,使用简单投票法。 Bagging算法,又称为0.632自助法,也就是我们常说的自助有放回。基于这个特性,我们在使...
2019-02-25 11:59:03 184
转载 XGBoost
什么是XGBoost?XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本,因其在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。 XGBoost类似于GBDT,是一个基于CART树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。 XGBoost的数学原理作为GB方...
2019-02-25 11:56:38 6689
转载 itemCF算法
什么是itemCF算法?itemCF:ItemCollaborationFilter,基于物品的协同过滤 算法的核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品 那么如何判断物品的是否相似呢?该算法认为,喜欢物品A的用户大都也喜欢物品B,那么我们称物品A和物品B相似。 itemCF算法流程1.计算物品之间的相似度2.根据物品的相似度和用户的历史行为给用...
2019-02-15 13:55:53 10364
原创 深度优先搜索和广度优先搜索
图的搜索算法图的搜索算法是基于数据以图为存储结构的搜索算法,有很多。比如说,深度优先搜索算法和广度优先搜索算法,还有A*、IDA*等启发式搜索算法。广度优先搜索(Breadth-First-Search)简单来说就是地毯式搜索。专业一点,就是以一个顶点出发,以度为1遍历他连接的所有顶点。然后度依次增加,直到终止顶点。以下图为例,起始顶点为S,终止顶点为t,度从1开始依次增加...
2019-02-01 11:05:41 580
原创 字符串匹配算法
引入概念主串和模式串 假设主串长度为n,模式串长度为m BF算法(Brute Force)就是遍历,时间复杂度O(n*m) RK算法哈希之后遍历,比数字比比字符串要快。时间复杂度是O(n)。比完数字之后再比一下字符串可以避免散列冲突。(极端情况下是O(n*m),哈希值全部都一样) BM算法通过上面的算法,我们知道字符串匹配,其实就是模式串在主串上...
2019-02-01 11:03:20 552
转载 朴素贝叶斯分类
朴素贝叶斯是一种简单的,好解释的概率模型。如下是我们高中时候就学过的当B发生的时候A发生的概率,它被叫做事件B发生下事件A的条件概率 但是实际情况中,我们往往是需要通过A去推断B。先给出贝叶斯定理 通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其...
2019-01-31 15:53:16 289
原创 Local Outlier Factor
什么是Local Outlier Factor?LOF(Local Outlier Factor),又称局部异常因子算法。区别于Isolation Forest算法(切分次数),LOF算法以距离为切入点,做异常检测。以上图为例,可以很简单的理解距离做异常检测来源的想法。 LOF的几个概念1.d(p,o)两点p和o之间的距离;2.k-distance第k距离d...
2019-01-31 15:48:03 1255
原创 python的析构函数
python中的析构函数,我们一般用__del__解构器来实现。由于python和其他语言的不同性,python中的变量本质上是指针,即变量是对内存空间上的引用。所以只有当内存空间上的引用计数为0时,__del__方法才会被调用。 参考浅谈python中的"析构"函数:https://blog.csdn.net/github_35939664/article/details...
2019-01-29 17:54:36 964
原创 Apriori算法
Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 支持度:支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单活着一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入...
2019-01-29 11:02:01 494
转载 EM算法
EM算法是什么?期望最大EM算法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。 举个例子两枚硬币A和B,假定随机抛掷后正面朝上概率分别为PA,PB。为了估计这两个硬币朝上的概率,咱们轮流抛硬币A和B,每一轮都连续抛5次,总共5轮: 硬币A被抛了15次,在第一轮、第三轮、第五轮分别出现了3次正、1次正、2次正,所以很容易估计出...
2019-01-29 10:59:29 1581
原创 线性回归
什么是线性回归?在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 假设函数hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=θTxθ 为回归系数,它是我们预测准度的基石 误差函数LMS(Least Mean Square),最小均方误差我们用最小均方来描述误差,误差评估函数在机器学习中也称为代价...
2019-01-28 15:03:46 482
原创 KNN分类算法
K-近邻算法简单来说,如下图所示这个绿色的球是什么颜色,就是说,离他最近的3个点(那就是k-3)是什么颜色。2/3是红色。如果是k-5呢?那就是蓝色。这就是knn算法。 一种很好理解的分类概率模型。 在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离:欧氏距离差的平...
2019-01-28 14:57:28 197
原创 分治算法
什么是分治算法?顾名思义,分治算法就是分而治之,也就是将原问题划分成n个规模较小的,并且结构与原问题相似的子问题,递归的解决这些子问题,然后再合并其结果,就得到原问题的解。 分治算法是一种处理问题的思想,递归是一种编程技巧。 分治算法的递归操作1.分解2.解决3.合并 举个例子,归并排序 分治算法的条件1.原问题与分解成的小问题具有相同的模式...
2019-01-28 14:55:41 366
原创 动态规划
什么是动态规划?动态规划的本质,是对问题状态的定义和状态转移方程的定义。动态规划是通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推的方式去解决 如何理解动态规划?还是以0-1背包为例,假设有5个物品,物品重量分别为2,2,4,6,3我们约定,有函数f(i,cw),i表示将要决策第几个物品是否装入背包,cw表示当前背包中物品的总重量。比如,f(2,2)表示我们将...
2019-01-28 14:53:55 685
转载 模型监控
什么是模型监控?模型监控就是模型上线之后,根据数据的变化来判断模型是否可用。分为2种,一种是前端监控,一种是后端监控。 前端监控1.得分稳定性在评分卡上,每个分数对应的百分比基本相同 2.特征分布对于单个特征来说,变量值的分布差异基本为0 后端监控主要看变量有效性,以下图为例:参考笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(R...
2019-01-27 16:31:05 3355
原创 矩阵分解模型
矩阵分解模型做如下假设:1.每个用户可描述为n个属性或特征。比如,第一个特征可以对应某个用户对动作片的喜好程度。2.每个物品可描述为n个属性或特征。比如,接上一点,第一个特征可以用对应某部电影与动作片的接近程度。3.将用户和物品对应的属性相乘后求和,该值可能很接近用户会对该物品的评级。 1.显式矩阵分解当要处理的数据是由用户所提供的自身的偏好数据时,这些数据被称作显式偏好数...
2019-01-27 15:11:11 3332
原创 主成分分析PCA
什么是PCA?PCA,Principle Component Analysis,即主成分分析法,是特征降维的最常用手段。顾名思义,PCA能从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。通常用于高维数据集的探索与可视化。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保留原始数据的信息。 举个例子,球和圆。一个三维空间的球...
2019-01-27 11:09:31 253
转载 奇异值分解SVD
散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。这里值得注意的是,散度矩阵是SVD奇异值分解的一步,因此PCA和SVD是有很大联系。 散度矩阵=类内离散度矩阵=类内离差阵=协方差矩阵×(n-1) 样本的协方差矩阵乘以n-1倍即为散布矩阵,n表示样本的个数,散布矩阵的大小由特征维数d决定,是一个为d×d 的半正定矩阵。...
2019-01-27 11:04:39 272
原创 二分查找
什么是二分查找?二分查找是一种快速查找算法。时间复杂度为O(logn)。他要求数据集为一个有序数据集。 二分查找应用场景的局限性依赖顺序表(必须有序)结构,简单来说就是数组。其次由二分查找的查找方式(随即查找)可以得出,链表并不能作为二分查找的数据结构。数据量不能太小。当数据量太小的时候,二分查找还不如遍历。数据量不能太大。由于数组的缘故,由数组的特性可知,他需要内存中...
2019-01-27 09:18:01 527
原创 跳表
什么是跳表?跳表是一个相对于链表来说的高级动态数据结构。在一个有序的链表当中,以一定的规则(比如说3个数字建立一个索引)建立索引,依次建立。最高的索引层只有2个索引。时间复杂度是O(logn),十分高效。基本思想就是以空间换时间,建立索引。在大规模软件开发中,这个额外的空间相对于数据的大小可以忽略。 如何插入?插入跳表一个比较恶心的东西就是需要更新索引。更新索引的方...
2019-01-27 09:16:56 171
原创 红黑树
什么是红黑树?为了解决二叉查找树多次插入新节点而导致的不平衡,我们发明了红黑树(Red-Black Tree,R-B Tree)。红黑树是一种自平衡的二叉查找树。 时间复杂度O(logn) 红黑树的特性(根据特性来进行自平衡,其实就是规则)1.每个节点或者是黑色,或者是红色2.根节点是黑色3.每个叶子节点(NIL)是黑色。(这里叶子节点,是指为空的叶子节点)...
2019-01-27 09:16:12 169
原创 环形缓冲区
什么是环形缓冲区?在通信程序中,经常使用环形缓冲区作为数据结构来存放通信中发送和接收的数据。环形缓冲区是一个先进先出的循环缓冲区,可以向通信程序提供对缓冲区的互斥访问。 环形缓冲区原理环形缓冲区通常有一个读指针和写指针。读指针指向环形缓冲区中可读的数据,写指针指向环形缓冲区中可写的缓冲区。通过移动读指针和写指针就可以实现缓冲区的数据读取和写入。在通常情况下,环形缓冲区的读用户仅仅会...
2019-01-26 12:24:04 1547
原创 Isolation Forest
什么是Isolation Forest?Isolation Forest的思路很简单。假设我们的数据集合是一维空间下的点我们通过切分的方式可以很方便的将异常点B点切分出来。如何定义方便?切分的次数那这个思路对于正常点点A来说也可以取,可以看到如果要把A隔离出来我要切很多遍。 Isolation Forest算法1.训练:抽取多个样本,构建多棵二叉树(isolat...
2019-01-26 12:14:51 328
转载 异常检测
"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism." — D. M. Hawkins,Identification of Outliers, Chapma...
2019-01-26 12:06:13 417
原创 初识推荐模型
一般来讲,推荐模型试图对用户于某类物品之间的联系建模。简单来说就是,“用户---物品”。 推荐模型适合如下两类常见场景:1.可选项众多2.偏个人喜好 可以归结为2种推荐形式,一种是基于人和相似的人,另一种就是基于物品和相似的物品。 推荐模型目前最为流行的方法可以分为2种(以电影为例)1.基于内容的过滤描述电影属性可用演员、流派、流行度等属性,描述用户属性可用...
2019-01-26 12:04:00 674
原创 K-means
什么是K-Means?K-Means是一种无监督的分类学习算法。无监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据,即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性。 基本原理K-Means 算法是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差评分和函数...
2019-01-26 12:00:35 162
转载 GBDT和XGBoost区别
RF、GBDT和XGBoost都属于集成学习,集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 GBDT和XGBoost区别1.传统的GBDT以CART树作为基学习器,XGBoost还支持线性分类器,这个时候XGBoost相当于L1和L2正则化的logistic回归(分类)或者线性回归(回归);2.传统的GBDT在优化的时候只用到一阶导数信息,XG...
2019-01-26 11:57:18 230
原创 决策树算法
决策树决策树算法是一个自顶向下的树(可以是二叉树,也可以是多叉树)。算法原理简单,易解释,分类性能较好。决策树是一种强大的、非概率的方法。 决策树非叶节点划分规则:1.信息增益最大的先分,通俗来讲就是针对于因变量区分度最大的标签2.离散变量采用是或不是的方法3.连续变量采用>=或<=的方法 分枝策略:分类树:信息熵回归树:最小均方差 主要...
2019-01-26 11:54:53 807
原创 哈希算法
什么是哈希算法?将任意长度的二进制值串映射为固定长度的二进制值串,这个映射的规则就是哈希算法。而通过原始数据映射之后得到的二进制串就是哈希值。 哈希算法的要求1.单向。不能从哈希值反推原始数据2.对输入数据敏感。哪怕是一个bit,输出也要不一样3.散列冲突概率小 ----- 鸽巢问题引起的4.高效 哈希算法的应用安全加密、数据校验、唯一标识、散列函...
2019-01-24 18:25:43 203
原创 散列表
什么是散列表?散列表也被称“Hash Table”,我们称之为“哈希表”或者“Hash表”。散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,没有数组,就没有散列表。 最简单的散列表最简单的散列表就是key对应数组的下标,value就是数组下标内的元素值。 我们把key到value的这个过程赋予一个函数,称为散列函数。...
2019-01-24 18:21:51 556
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人