diaoqi6581-CSDN博客

转载 Xgboost GPU配置

眼残cmake版本配错了搞了半天,简单记录一下,老规矩,参考一下官方的文档.git clone --recursive https://github.com/dmlc/xgboostcd xgboostmkdir buildcd buildcmake .. -DUSE_CUDA=ONmake -j4cd ..cd python-package...

2019-09-14 17:29:00 576

转载 lightGBM gpu环境配置

推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图:主要是OpenCL以及libboost两个环境的要求.(1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了(这部分后面编译的时候会有解释).可以用clinfo查看OpenCL的...

2019-09-12 11:01:00 1023

转载论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

引言　　GBDT已经有了比较成熟的应用，例如XGBoost和pGBRT，但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是，对于每个特征，他们都需要遍历每一条数据，对每一个可能的分割点去计算信息增益。为了解决这个问题，本文提出了两个新技术：Gradient-based One-Side Sampling(GOSS)和Exclusive Feature Bundling(E...

2019-09-11 15:52:00 457

转载 Huber Loss 介绍

Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。当预测偏差小于 δ 时，它采用平方误差,当预测偏差大于 δ 时，采用的线性误差。相比于最小二乘的线性回归，HuberLoss降低了对离群点的惩罚程度，所以 HuberLoss 是一种常用的鲁棒的回归损失函数。Huber Los...

2019-09-09 19:13:00 779

转载精通特征工程笔记（二）

分类变量的处理　　编码方式：　　>> one-hot编码　　>> 虚拟编码：one-hot编码对于k类别的变量编辑一个长度为k的特征向量，实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量，使得编码更具有解释性　　>> 效果编码：与虚拟编码类似，区别在于参照类由全部由-1的向量表示，示例如下所示：　　...

2019-09-05 10:55:00 343

转载精通特征工程笔记(一)

发数值部分　　处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法.　　yelp数据是用户点评商家的数据集分布图如下所示:　　　　如果用上述数...

2019-09-04 20:52:00 244

转载 zcmu 1540第k大数

1540: 第k大数Time Limit:10 SecMemory Limit:128 MB[Submit][Status][Web Board]Description有两个序列a，b，它们的长度分别为n和m，那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么？Input输入的第一行为一个正整数T (T<=10)，代表一共有T组测试数据。...

2019-09-01 19:42:00 255

转载论文笔记 : NCF( Neural Collaborative Filtering)

ABSTRACT　　主要点为用MLP来替换传统CF算法中的内积操作来表示用户和物品之间的交互关系.INTRODUCTION　　NeuCF设计了一个基于神经网络结构的CF模型.文章使用的数据为隐式数据,想较于显性数据,implicit feedback更容易获取但比较难处理.文章的主要贡献有以下三点:　　(1) 使用神经网络结构对用户以及物品的latent features...

2019-08-29 15:51:00 771

转载论文笔记：DeepCF

Abstract　　推荐系统可以看作用户和物品的匹配问题，不过user以及item两者的语义空间差异太大，直接匹配不太符合实际。主流的改进CF的方法有两类：基于表示学习的CF方法以及基于函数学习的表示方法。基于表示学习的CF模型将user和item转换到一个共通的语义空间来匹配。基于函数学习的CF尝试直接学习一个复杂的函数来对user和item进行匹配。Introduction...

2019-08-29 10:34:00 761

转载论文笔记: Deep Learning based Recommender System: A Survey and New Perspectives

　　(聊两句,突然记起来以前一个学长说的看论文要能够把论文的亮点挖掘出来,合理的进行概括23333)　　传统的推荐系统方法获取的user-item关系并不能获取其中非线性以及非平凡的信息,获取非线性以及非平凡的信息恰恰是深度学习所具备的特点.论文对基于深度的学习的推荐系统方法进行了对比以及分类.文章的主要贡献有以下三点:　　>对基于深度学习技术的推荐模型进行系统评价，并提...

2019-08-23 14:40:00 811

转载论文笔记: Matrix Factorization Techniques For Recommender Systems

Recommender system strategies　　通过例子简单介绍了一下collaborative filtering 以及latent model,这两个方法在之前的博客里面介绍过,不累述.Matrix factorization methods　　许多成功的LFM都是基于MF的.推荐系统的输入数据需要一定显示反馈信息,例如一个用户给电影的评论.通常包含反馈...

2019-08-23 09:10:00 466

转载推荐系统实践笔记(八)

第八章评分预测问题　　一个评分记录为一个三元组(u,i,r)我们用$r{ui}$表示一个用户u给物品i的评分.8.2 评分评测算法　　(1) 平均值　　假设有两个分类的函数,一个是用户分类函数$\phi$,一个是物品分类函数$\varphi$.$\phi(u)$定义了用户u所属的类,$varphi(i)$定义了物品i所属的类,评分预测值为:　　　　(2) 基于领...

2019-08-22 16:57:00 160

转载推荐系统实践笔记（七）

第七章推荐系统实例7.1 外围架构　　　　数据收集和存储　　需要实时存取的数据存储在数据库和缓存中，而大规模的非实时地存取数据存储在分布式文件系统中（HDFS）中。7.2 推荐系统架构　　　　用户和物品的联系如下所示：　　如果认为用户喜欢的物品也是一种用户特征，或者和用户兴趣相似的其他用户也是一种用户特征，那么用户就和物品通过特征相联系。基于上述的理解...

2019-08-22 11:45:00 179

转载推荐系统实践笔记 (六)

第六章利用社交网络数据6.2 社交网络数据简介　　用图G(V,E,W)描述社交网络数据,V为顶点集合对应用户集;E为边集,两个用户之间有社交网络关系则就有一条边联系;W为每条边的权重.Facebook对应的社交网络为无向图(关系需要双方的确认),Twitter为有向图(朋友关系是单向的).　　三种社交网络数据:　　> 双向确认的社交网络数据　　> 单向关...

2019-08-22 09:09:00 157

转载推荐系统实践笔记 (五)

第五章利用上下文信息5.1 时间上下文信息　　给定时间信息后,推荐系统从一个静态的系统变成了一个时变的系统.有一个三元组(u,i,t)表示用户u在时刻t对物品i有过行为.　　(a)评价物品的生命周期的指标:　　　　(1) 物品平均在线天数:如果一个物品在某天被至少一个用户产生过行为,就定义该物品在这一天在线　　　　(2) 相隔T天物品流行度向量的平均相似度(余弦相...

2019-08-21 18:15:00 171

转载推荐系统实践笔记(四)

第四章利用用户标签数据流行的三个推荐系统联系用户和物品的方式:　　(1) item-base itemCF　　(2) user-base userCF　　(3) feature_base 隐语义模型以及UGC(User Generated Content)模型(用户标签模型)利用用户标签推荐的简单算法流程:　　(1)统计每个用户最常用的标签。　　(2...

2019-08-21 10:00:00 159

转载推荐系统实践笔记(三)

第三章推荐系统冷启动问题　　如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐系统结果满意从而愿意使用推荐系统就是冷启动问题.3.1 冷启动问题简介　　冷启动问题主要分为以下三类:　　(1) 用户冷启动主要解决如何给新用户做个性化推荐的问题　　(2) 物品冷启动主要解决如何将新的物品推荐给可能对其感兴趣的用户　　(3) 系统冷启动主要解决如...

2019-08-20 19:39:00 268

转载推荐系统实践笔记(二)

第二章利用用户行为数据2.1 用户行为简介　　用户的行为分为显性反馈行为以及隐性反馈行为.用产生行为的用户和行为的对象、行为的种类、产生行为的上下文、行为的内容和权重六个部分表示用户的行为.安装上述定义可将数据集分为:无上下文的隐性反馈数据集;无上下文信息的显性反馈数据集;有上下文的隐性反馈数据集;有上下文信息的显性反馈数据集.2.2 用户行为分析　　(1) 互联网上的很多...

2019-08-20 10:10:00 431

转载推荐系统实践笔记(一)

第一章:好的推荐系统1.1 什么是推荐系统　　当用户没有明确需求的时候(有明确需求的时候,通过搜索引擎一般都能够解决问题),如果周末想去看电影,但是不确定看什么电影(不确定的需求),这时候需要一个自动化的工具,它能够根据你的历史行为分析出你可能会喜欢哪些系统.推荐系统是自动联系用户和物品的一种工具.1.2 个性化推荐系统　　(1) 电子商务 (item_base)　...

2019-08-19 17:56:00 259

转载关于梯度下降之前需要进行feature scale的记录

先上吴恩达老师的课件图　　1.对于梯度下降而言,学习率很大程度上影响了模型收敛的速度.对于不同规模的特征,如果采用相同的学习率,那么如果学习率适应于scale大的数据,scale较小的数据由于学习率过大无法收敛;如果学习率适应于scale较小的数据,那么收敛的速度会变的很慢(对于大scale的数据而言,学习率太小了).　　2.scale值越大的特征，对模型的影响越大。极端情况...

2019-07-23 10:04:00 489

转载解决Ubuntu 16.04 环境下Python 无法显示中文的问题

一.下载中文字体(https://pan.baidu.com/s/1EqabwENMxR2WJrHfKvyrIw这里下载多是SImhei字体)安装字体：解压：unzip SimHei.zip拷贝字体到 usr/share/fonts 下（记得切换到.ttf的目录下面）sudo cp ./SimHei.ttf /usr/share/fonts/SimHei.ttf...

2019-07-22 15:50:00 684

转载 L1正则与L2正则

转自：https://www.zhihu.com/question/37096933转载于:https://www.cnblogs.com/z1141000271/p/11218037.html

2019-07-20 15:55:00 74

转载论文笔记 XGBoost: A Scalable Tree Boosting System

　　XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器，其更关注与降低基模型的偏差。XGBoost是一种提升树模型（Gradient boost machine），其将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。讲解其原理前，先讲解一下CART回归树。一、CART回归树　　C...

2019-07-19 16:58:00 354

转载论文笔记：GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE

Boost是集成学习方法中的代表思想之一，核心的思想是不断的迭代。boost通常采用改变训练数据的概率分布，针对不同的训练数据分布调用弱学习算法学习一组弱分类器。在多次迭代的过程中，当前次迭代所用的训练数据的概率分布会依据上一次迭代的结果而调整。也就是说训练数据的各样本是有权重的，这个权重本身也会随着迭代而调整。Adaboost(后面补一篇介绍这个的文章吧)在...

2019-07-17 15:43:00 740

转载 python ID3决策树实现

环境：ubuntu 16.04 python 3.6数据来源：UCI wine_data（比较经典的酒数据）决策树要点：1、如何确定分裂点（CART ID3 C4.5算法有着对应的分裂计算方式)2、如何处理不连续的数据，如果处理缺失的数据3、剪枝处理尝试实现算法一是为了熟悉python,二是为了更好的去理解算法的一个流程以及一些要点的处理。from ...

2019-07-08 20:19:00 149

转载变分推断

变分对于普通的函数f(x)，我们可以认为f是一个关于x的一个实数算子，其作用是将实数x映射到实数f(x)。那么类比这种模式，假设存在函数算子F，它是关于f(x)的函数算子，可以将f(x)映射成实数F(f(x)) 。对于f(x)我们是通过改变x来求出f(x)的极值，而在变分中这个x会被替换成一个函数y(x)，我们通过改变x来改变y(x),最后使得F(y(x))求得极值。变分:指的是...

2019-07-03 20:24:00 518

转载 ubuntu 16.04 英伟达驱动安装

参考：https://blog.csdn.net/breeze5428/article/details/80013753换了一个新的地方，得重新配置Ubuntu 16.04，在配置NVIDIA驱动的时候发现之前踩的坑没有记录下来，这里简单总结一下。主要步骤：1. 卸载之前安装的NVIDIA驱动。sudo apt-get purge nvidia*2.添加...

2019-06-26 09:30:00 80

转载 EM（Expectation-Maximization）算法

转自：https://blog.csdn.net/livecoldsun/article/details/40833829 以前看EM算法的时候并没有理解透，这篇文章讲的很清楚，论证部分也较为直观。ＥＭ算法的核心点在于解决在最大似然过程中log内套求和导致的高复杂计算问题，在求隐藏变量的后验分布的时候，往往需要借助变分推断来近似...

2019-06-19 16:25:00 79

转载 Intel realSense ubuntu 16.04+python 环境配置指南

1. 安装librealsense2-dkms 以及librealsense2-utils1、Register the server's public key:sudo apt-key adv --keyserver keys.gnupg.net --recv-key C8B3A55A6F3EFCDE || sudo apt-key adv --keyserver hkp:/...

2019-03-18 19:41:00 525

转载关于python、pip、anaconda安装的一些记录

写这篇博客是因为自己这段时间总是倒腾python的环境，其间倒腾崩了好几次.....无奈之下还是梳理一下。PYTHON　　首在安装python3.6的之后，我安装了anaconda3,这样我的电脑上python3.6就有两个版本：分别是：(base) huster@huster-B150M-D3H:~$ sudo python3[sudo] password...

2019-03-04 19:43:00 217

转载 Non-Maximum Suppression（非极大值抑制）

定义与介绍（NMS 以及soft-NMS也有简单的介绍）：https://www.cnblogs.com/makefile/p/nms.htmlIoU的介绍这篇写的不错：https://oldpan.me/archives/iu-iou-intersection-over-union-python转载于:https://www.cnblogs.com/z11410002...

2019-02-22 15:06:00 83

转载 Online Hard Example Mining 理解

Definition: Online Hard Example Mining (OHEM) is a way to pick hard examples with reduced computation cost to improve your network performance on borderline caseswhich generalize to t...

2019-02-21 19:58:00 285

转载环境配置--升级Python 3.6爬坑

升级到3.6之后，发现ctrl alt t呼不出命令台，找了半天发现update manager也打不开，而且没有错误报告....。查阅了一番资料看到有人有类似的问题（https://askubuntu.com/questions/789966/software-updates-crashes-and-will-not-open）于是我尝试用命令的方式启动命令行，错误结果如下：...

2019-01-18 19:19:00 282

转载环境配置 python 3.6+Anaconda+cuda9.0+cudNN7.0+Tensorflow

最近在摸deepfakes代码，一堆环境要配置，过程记录一下吧。一、安装Python3.6Ubuntu16.04系统下默认是python2.7.网上说一般不建议卸载系统自带的python，所以保留。1. 配置软件仓库sudo add-apt-repository ppa:jonathonf/python-3.6 2. 检查系统软件包，安装Python...

2019-01-18 18:07:00 290

转载 ubuntu 16.04 循环登陆问题

换了个titan x重装显卡驱动失败之后一直循环登陆，试了N种处理显卡驱动的方法，并没有啥用。最后查看了一下.Xerrer文件（具体的文件名我给忘记了），发现是.Xauthority.现象：在Ubuntu登陆界面输入密码之后，黑屏一闪，又跳转到登录界面。原因：主目录下的.Xauthority文件拥有者变成了root，从而以用户登陆的时候无法都取.Xauthority文件。说明：X...

2018-11-27 18:56:00 140

转载贝叶斯分类器

　　本文主要介绍一个常见的分类框架--贝叶斯分类器。这篇文章分为三个部分：1. 贝叶斯决策论；2. 朴素贝叶斯分类器； 3. 半朴素贝叶斯分类器　　贝叶斯决策论　　在介绍贝叶斯决策论之前，先介绍两个概念：先验概率（prior probability）和后验概率（posterior probability）。　　直观上来讲，先验概率是指在事件未发生时，估计该事件发生的概...

2018-11-22 10:46:00 124

转载机器学习降维算法: isomap & MDS

　　最近在看论文的时候看到论文中使用isomap算法把3D的人脸project到一个2D的image上。提到降维，我的第一反应就是PCA,然而PCA是典型的线性降维，无法较好的对非线性结构降维。ISOMAP是‘流形学习’中的一个经典算法，流形学习贡献了很多降维算法，其中一些与很多机器学习算法也有结合，先粗糙的介绍一下’流形学习‘。　　流形学习　　流形学习应该算是个大课题了，它的基...

2018-11-20 09:44:00 400

转载论文笔记 Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression...

Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression　　该文献采用一个新型的VRN网络对任意的面部姿势和表情的2D图片进行3D面部重建，并绕过3D可变模型的构造（在训练期间）和拟合（在测试期间）。volumetric representation...

2018-11-15 17:07:00 248

转载论文笔记 Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimationkey words:人体姿态估计 Human Pose Estimation 给定单张RGB图像，输出人体某些关键点的精确像素位置.堆叠式沙漏网络 Stacked Hourglass Networks多尺度特征 Features processed across all sca...

2018-11-15 11:25:00 135

转载 SVM算法

先推荐一篇比较全面的博客： http://www.cnblogs.com/dreamvibe/p/4355141.html简介SVM(Support Vector Machine)中文名为支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。相关概念分类器：分类器就是给定一个样本的数据，判定这个样本属于...

2018-10-28 15:58:00 173

空空如也

空空如也