机器学习
文章平均质量分 53
jiangjiane
起风了,唯有努力生存
展开
-
连续特征的离散化
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?转载 2021-10-09 11:24:15 · 2774 阅读 · 0 评论 -
余弦相似度
收藏笔记:原文地址转载 2020-07-29 20:11:32 · 254 阅读 · 0 评论 -
机器学习-常用公开数据集
1.各领域公开数据集下载2.常用公共数据集(中文:点此)转载 2020-07-11 17:33:24 · 644 阅读 · 0 评论 -
贝叶斯个性化推荐排序优秀博文
刘建平-博客园1、贝叶斯个性化排序(BPR)算法小结2、用tensorflow学习贝叶斯个性化排序(BPR)转载 2019-11-14 15:35:56 · 524 阅读 · 0 评论 -
推荐系统召回四模型之二:沉重的FFM模型
推荐系统召回四模型之二:沉重的FFM模型来源:知乎作者:张俊林原文链接:推荐系统召回四模型之二:沉重的FFM模型https://zhuanlan.zhihu.com/p/59528983...转载 2019-11-12 10:32:53 · 501 阅读 · 0 评论 -
推荐系统召回四模型之:全能的FM模型
推荐系统召回四模型之:全能的FM模型来源:知乎作者:张俊林原文链接:推荐系统召回四模型之:全能的FM模型https://zhuanlan.zhihu.com/p/58160982...转载 2019-11-11 17:11:52 · 661 阅读 · 0 评论 -
SVD优秀博文汇总
1、机器学习之SVD奇异值原理分析及举例2、从SVD到推荐系统3、SVD推荐系统简单案例原创 2019-11-11 14:50:31 · 179 阅读 · 0 评论 -
LightGBM介绍
LightGBM介绍https://blog.csdn.net/weixin_38569817/article/details/78808535转载 2019-10-22 20:41:00 · 839 阅读 · 0 评论 -
贝叶斯应用--垃圾短信/邮件过滤
现在贝叶斯已经广泛应用了,海难搜救、生物医药、疾病诊断、邮件过滤、文本分类、侦破案件、工业生产等很多方面。我们机会每天都会收到类似以下的垃圾短信/邮件:“XX公司优惠,商品打折,全场八折,返利多少钱”“金融公司,XX理财产品,XX保险”“招聘兼职,工资日结”诸如此类的垃圾邮件,铺天盖地、没完没了的发。我们能不能通过一个算法自动的识别出这些垃圾邮件呢?贝叶斯公式就很好用, 下面我们来一步...原创 2019-10-15 11:42:28 · 932 阅读 · 0 评论 -
李航《统计学习方法》系列Python实现
该书系列代码实现:推荐该博主转链接:https://blog.csdn.net/wds2006sdo/article/details/51923546转载 2018-10-09 21:46:01 · 4320 阅读 · 0 评论 -
自定义决策树保存——python pickle模块实现
定义两个函数,storeTree用于把决策树以二进制形式保存到文件中,grabTree从文件中读出决策树到内存文件后缀名为.pkl#!/usr/bin/env python# -*- coding: utf-8 -*-import pickledef storeTree(inputTree, filename): """Serialize the decision t...原创 2018-10-31 11:47:05 · 1189 阅读 · 0 评论 -
不平衡数据处理-imblearn
原文链接(非常好的一个总结):https://blog.csdn.net/kizgel/article/details/78553009转载 2018-11-19 14:04:48 · 884 阅读 · 0 评论 -
各种梯度优化算法介绍
原文题目:An overview of gradient descent optimization algorithms原文链接:http://sebastianruder.com/optimizing-gradient-descent博文地址:http://blog.csdn.net/wangxinginnlp/article/details/50974594 ...转载 2018-12-25 11:02:38 · 260 阅读 · 0 评论 -
机器学习书籍
转载:https://blog.csdn.net/xiangxizhishi/article/details/78875727转载 2019-02-23 12:30:11 · 557 阅读 · 0 评论 -
NLP学习资源链接
https://blog.csdn.net/yaohaishen/article/details/87537773转载 2019-06-01 09:56:15 · 577 阅读 · 0 评论 -
Pandas按照某列值排序
函数: pd.sort_values("feature_name",inplace=True) 表示pd按照"feature_name"这个字段排序; inplace:默认为False,如果该值为False,那么原来的pd顺序没变,只是返回的是排序的; ascending:默认为True,按照升序排序,为False时,按照降序排序。...原创 2019-08-06 18:47:06 · 11940 阅读 · 0 评论 -
Github下载单个文件或单个文件夹
1、进入这个网站(需要科学上网才能打开):DownGit2、复制需要下载文件的页面的浏览器上面的网址,即可打包下载。原创 2019-08-07 21:05:50 · 508 阅读 · 0 评论 -
决策树学习笔记(详细)
原文链接:https://www.zybuluo.com/K1999/note/455654转载 2018-10-09 14:55:17 · 385 阅读 · 0 评论 -
判别模型和生成模型——机器学习
转载自:https://www.cnblogs.com/zeze/p/7047630.html 判别式模型(discriminative model) 产生式模型(generative model) 特点 寻找不同类别之间的最优分类面,反映的是异类数据之间的差异 对后验概率建模,...转载 2018-10-05 17:12:07 · 351 阅读 · 0 评论 -
机器学习-最小二乘法2
机器学习——最小二乘法 转载自:点击打开链接参考知乎 https://www.zhihu.com/question/20447622 该问题下面的部分回答:建议有时间的把问题下面的所有答案都过一遍,这样可以通过不同的切入点来更好的理解。最小二乘法,也叫最小平方法,在古汉语中“平方”称为“二乘”,“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。(转载 2018-01-16 16:02:23 · 371 阅读 · 0 评论 -
机器学习-最小二乘法1
转载自:点击打开链接一.背景 5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。转载 2018-01-16 15:58:16 · 518 阅读 · 0 评论 -
机器学习-梯度下降法1
转载自:点击打开链接最优化概述机器学习近年来已经获得迅速发展,而机器学习的本质就是对问题进行抽象建模,使得一个学习问题变为一个可求解的优化问题,归纳起来就是把一个学习问题转化为优化问题.我们需要寻找输入特征与标签之间的映射关系,有一条重要的原则就是使得寻找到的映射结果与原始标签之间的误差最小. 最优化算法从最基本的梯度下降法到一些启发式算法,如遗传算法(GA),差分演化算法(D转载 2018-01-16 17:03:03 · 576 阅读 · 0 评论 -
机器学习-梯度下降法2
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂转载 2018-01-16 17:06:15 · 312 阅读 · 0 评论 -
机器学习-遗传算法
转载自:点击打开链接本文是去年课题组周报中的一个专题讲解,详细讲了GA,由于是周报,所以十分详细。很适合初学者入门。文中也简单提及了模拟退火算法。文章综合参考了一些互联网资料。发博客以备忘!三:遗传算法 照例先给出科学定义: 遗传算法(Genetic Algorithm, GA)起源于对生物系统所进行的计算机模拟研究。它是模仿自然界转载 2018-01-16 17:22:20 · 8182 阅读 · 0 评论 -
机器学习性能评估指标
机器学习性能评估指标转载自:点击打开链接分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 →" role="presentation" style="display: inline; line-height: normal;转载 2018-01-18 20:06:49 · 1364 阅读 · 0 评论 -
机器学习-学习曲线
转载自:点击打开链接学习曲线是一条关于样本个数和经验损失函数之间的曲线,对机器学习中的过程进行判断,进一步调整学习参数,提高假设模型的泛化能力。在上面的图中,蓝线表示经验损失函数随着训练样本的增多而变大,相反绿线呈现出反向的关系。绿线是交叉验证样本,计算交叉验证的样本损失函数使用到的权值参数是由训练样本得到的,与该权值参数保持一致。从图中可以看出无论是蓝线还是绿线,损失函数值都很高,这种现做象叫“转载 2018-01-19 10:23:38 · 4249 阅读 · 0 评论 -
机器学习-模型决定系数
决定系数决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.表达式:R2=SSR/SST=1-SSE/SST其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regression sum of squares)为回归平方和,SSE(error sum of squares) 为残差平方原创 2018-01-19 11:26:00 · 5347 阅读 · 0 评论 -
推荐系统经典论文文献及业界应用
推荐系统经典论文文献及业界应用列了一些之前设计开发百度关键词搜索推荐引擎时, 参考过的论文, 书籍, 以及调研过的推荐系统相关的工具;同时给出参加过及未参加过的业界推荐引擎应用交流资料(有我网盘的链接), 材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科,它与机器学习,数据挖掘有天然不可分的关系,所以同时列了一些这方面有用的工具及书籍,希望能对大家有所帮助。Survey方面的...转载 2018-03-01 21:30:54 · 1744 阅读 · 0 评论 -
机器学习中常见的损失函数
一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。 损失函数是用来评价模型的预测值Y^=f(X)Y^=f(X)与真实值YY的不一致程度,它是一个非负实值函数。通常使用L(Y,f(x))L(Y,f(x))来...转载 2018-06-21 16:12:34 · 1835 阅读 · 0 评论 -
K-L变换-机器学习
K-L变换的理论知识K-L变换是除了PCA外的另一种常用的特征提取方法,它有很多种形式,最基本的形式跟PCA类似,它跟PCA的不同在于,PCA是一种无监督的特征变换,而K-L变换能够考虑到不同的分类信息,实现有监督的特征提取。根据随机过程中的KL展开理论,将随机过程描述为无数个正交函数的线性组合,而在模式识别问题中,通常可以将一个样本看成是随机向量的某一次实现结果,所以假设有一d维随机向量...原创 2018-08-26 16:25:08 · 20600 阅读 · 2 评论 -
关于线性回归假设
(来自牛客网)关于线性回归的描述,以下正确的有: BCEA 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布B 基本假设包括随机干扰项是均值为0的同方差正态分布C 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量D 在违背基本假设时,模型不再可以估计E 可以用DW检验残差是否存在序列相关性F 多重共线性会使得参数估计值方差减小一元线性回归的基本假设...原创 2018-08-26 17:24:19 · 8501 阅读 · 0 评论 -
机器学习:线性回归、岭回归、Lasso回归
转载自:https://blog.csdn.net/hzw19920329/article/details/77200475线性回归作为一种回归分析技术,其分析的因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于有监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现的问题进行简单探讨,引出线性回归的两个变种岭回归以及Lasso回归,最后通过...转载 2018-08-26 17:32:04 · 2259 阅读 · 0 评论 -
机器学习:奇异值分解SVD简介及其在推荐系统中的简单应用
转载自:https://www.cnblogs.com/lzllovesyl/p/5243370.html本文先从几何意义上对奇异值分解SVD进行简单介绍,然后分析了特征值分解与奇异值分解的区别与联系,最后用python实现将SVD应用于推荐系统。1.SVD详解SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA...转载 2018-08-26 17:47:29 · 1413 阅读 · 0 评论 -
Bagging与Boosting
转载自:http://www.cnblogs.com/liuwu265/p/4690486.htmlBagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1、Baggi...转载 2018-08-31 12:59:54 · 167 阅读 · 0 评论 -
机器学习-算法工程师 -面试/笔试准备-重要知识点梳理
原文地址:https://blog.csdn.net/lrs1353281004/article/details/79529818转载 2018-08-31 15:55:11 · 508 阅读 · 0 评论 -
全概率公式与贝叶斯公式-机器学习
转载自:点击打开链接在概率论与数理统计中,有两个相当重要的公式——全概率公式与贝叶斯公式。然而很多人对这两个公式感到非常迷茫。一来不知道公式背后的意义所在,二来不知道这些冰冷的公式能有什么现实应用。1. 全概率公式在讲全概率公式之前,首先要理解什么是“完备事件群”。 我们将满足 BiBj=∅(i≠j)B1+B2+⋯=Ω这样的一组事件称为一个“转载 2018-01-11 14:32:01 · 2799 阅读 · 1 评论