sliceoflife-CSDN博客

原创推荐系统学习笔记06-GBDT+LR

1. GBDT+LR简介前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使

2020-10-30 09:57:01 198

原创推荐系统学习笔记04-Wide&Deep

1. 点击率预估简介点击率预估是用来解决什么问题？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.点击率预估模型需要做什么？通过上述点击率预估的基本概念，我们会发现其实点击率预估问题就是一个二分类的问题，在机器学习中可以使用逻辑回归作为模型的输出，其输出的就是一个概率值，我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法有什么不同？广告点击率预估是需要得到某个用户对某个广告的点击率，

2020-10-27 22:37:04 241

转载推荐系统学习笔记03-矩阵分解和FM

1. 隐语义模型与矩阵分解协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性，仅仅利用了用户与物品的交互信息就可以实现推荐，是一个可解释性很强，非常直观的模型，但是也存在一些问题，第一个就是处理稀疏矩阵的能力比较弱，所以为了使得协同过滤更好处理稀疏矩阵问题，增强泛化能力，从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型, 两者差不多说的一个意思，就是在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物

2020-10-25 23:36:50 253

转载深度强化学习笔记02-马尔可夫链

深度强化学习笔记02-马尔可夫链这几天杂事比较多，看了一些相关内容，但是没有时间形成笔记，此笔记复制与datawhale的MDP一节，后期自己学习填补。MDP[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZqnWSNgx-1603286418354)(img/2.1.png)]这节课我会给大家介绍马尔可夫决策过程。在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更生动地理解马尔可夫决策过程。第二部分

2020-10-21 21:20:53 917

转载推荐系统学习笔记02 - 协同过滤

推荐系统学习笔记02 - 协同过滤这几天杂事比较多，协同过滤自己看了一遍，理解了user cf 和 item cf相关知识，但是没有时间形成笔记，此笔记复制与datawhale的协同过滤一节，后期自己学习填补。文章目录推荐系统学习笔记02 - 协同过滤1. 协同过滤算法2. 相似性度量方法3. 基于用户的协同过滤4. UserCF编程实现5. UserCF优缺点6. 基于物品的协同过滤7. 算法评估8. 协同过滤算法的权重改进9. 协同过滤算法的问题分析10. 课后思考11. 参考资料1. 协同过滤

2020-10-21 21:03:37 587

原创深度强化学习笔记01

深度强化学习笔记01文章目录深度强化学习笔记01一深度强化学习关键字二深度强化学习知识点一深度强化学习关键字强化学习（Reinforcement Learning）：Agent可以在与复杂且不确定的Environment进行交互时，尝试使所获得的Reward最大化的计算算法。Action: Environment接收到的Agent当前状态的输出。State：Agent从Environment中获取到的状态。Reward：Agent从Environment中获取的反馈信号，这个信号指定了

2020-10-19 20:27:52 273

原创推荐系统学习笔记01

推荐系统学习笔记01文章目录推荐系统学习笔记01一推荐系统简介1 信息过载（information overload）2 推荐系统与搜索引擎3 个性化推荐系统的应用二推荐系统评测1 推荐系统实验方法2 评测指标2.1 用户满意度2.2 预测准确度2.2.1 评分预测2.2.2 TopN推荐2.3 覆盖率2.4 多样性2.5 新颖性2.6 惊喜度2.7 信任度2.8 实时性2.9 健壮性三召回1 召回层在推荐系统架构中的位置及作用2 多路召回3 Embedding召回4 如何使用Embedding做召

2020-10-19 20:21:52 222 1

原创二 win10 Tornado 部署flask程序

win10 Tornado 部署flask程序文章目录win10 Tornado 部署flask程序1.Tornado下载安装2.flask程序 + wsgi文件配置3.tornado_server文件（flask和Tornado结合文件）4.启动tornado服务5.tornado结合Nginx部署（下一步添加）1.Tornado下载安装pip install tornado我使用的是anaconda环境，返现自带5.0.2版本的tornado ，就没下载安装2.flask程序 + wsg

2020-09-18 16:48:46 669

原创一 win10 apache+mod_wsgi 部署flask程序

win10 apache+mod_wsgi 部署flask程序文章目录win10 apache+mod_wsgi 部署flask程序1.Apache下载与使用2.mod_wsgi下载与配置3.flask程序 + wsgi文件配置4.修改apche配置文件5. 重启apache，然后输入url地址访问:6.解决apache服务器报错问题1.Apache下载与使用Apache超链接我选择的是最新64位版本：Apache 2.4.46 Win64解压缩，将Apache24文件夹放到c盘根目录下，也可以

2020-09-18 13:58:45 422

原创 flask数据库操作常用包-数据库迁移

2020-09-16 19:14:07 124

原创 CV街景门牌号码识别03_模型训练与验证

一个成熟合格的深度学习训练流程至少具备以下功能：在训练集上进行训练，并在验证集上进行验证；模型可以保存最优的权重，并读取权重；记录下训练集和验证集的精度，便于调参。4 模型训练与验证为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解，在部分小节中将会结合Pytorch代码进行讲解。4.1 学习目标理解验证集的作用，并使用训练集和验证集完成训练学会使用Pytorch环境下的模型读取和加载，并了解调参流程4.2 构造验证集在机器学习模型（特别是深度学习模型）

2020-05-31 11:25:11 830

原创 CV街景门牌号码识别03_CNN定长多字符分类模型

开始构建一个字符识别模型，基于对赛题理解可构建一个定长多字符分类模型。3 字符识别模型本章将会讲解卷积神经网络（Convolutional Neural Network, CNN）的常见层，并从头搭建一个字符识别模型。3.1 学习目标学习CNN基础和原理使用Pytorch框架构建CNN模型，并完成训练3.2 CNN介绍卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN

2020-05-26 22:21:55 483

原创 CV街景门牌号码识别02_数据读取与增广

使用【定长字符识别】思路来构建模型，逐步讲解赛题的解决方案和相应知识点。2 数据读取与数据扩增本章主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 学习目标学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据2.2 图像读取由于赛题数据是图像数据，赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作，在Python中有很多库可以完成数据读取的操作，比较常见的有Pillow和OpenCV。2.2.1 Pillow

2020-05-24 10:39:22 738 1

原创 CV街景门牌号码识别01_赛题理解

文章目录一、赛题理解1、赛题介绍2、评测指标3、赛题分析4、解题思路4.1、简单入门思路：定长字符识别4.2、专业字符识别思路：不定长字符识别4.3、专业分类思路：检测再识别一、赛题理解1、赛题介绍赛题名称：街景字符编码识别 / 街景门牌号码识别赛事链接：https://tianchi.aliyun.com/competition/entrance/531795/introduction数据集：原数据集为SVHN街景门牌号码数据集, 链接：http://ufldl.stanford

2020-05-21 13:46:06 423

原创学习task-06

10 图像边缘检测Canny 边缘检测使用函数：cv2.Canny()Sobel边缘检使用函数：cv.Sobel()import cv2 as cvimport numpy as npimg = cv.imread('test.jpg')cv.imshow('input image', img)gray = cv.cvtColor(img, cv.COLOR_...

2020-04-29 20:10:52 105

原创学习task-05

9 图像分隔/二值化使用分水岭算法基于掩模的图像分割函数：cv2.watershed()import cv2 as cvimport numpy as npimg = cv.imread('test.jpg')cv.imshow('input image', img)gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)ret, thr...

2020-04-29 20:08:08 104

原创学习-task04

思而不学犹豫不决浪费时间学而不思三心二意效率低下文章目录8 图像滤波8 图像滤波图像滤波，是指保留图像细节特征的条件下对目标图像的噪声进行抑制，称之为图像平滑化或者滤波滤波分为线性滤波和非线性滤波：线性滤波：方框滤波，均值滤波，高斯滤波非线性滤波：中值滤波（能够去除脉冲噪声，椒盐噪声同时又能够保留图像的边缘细节），双边滤波（可以做边缘保存）其中高斯低通就是模...

2020-04-27 13:48:50 130

原创学习-task03

思而不学犹豫不决浪费时间学而不思三心二意效率低下文章目录7 图像的RGB与Gray灰度图互转7 图像的RGB与Gray灰度图互转在 OpenCV 中有超过 150 中进行颜色空间转换的方法。但是经常用到的也就两种：BGR↔Gray 和 BGR↔HSV使用函数：cv2.cvtColor(input_image，flag)，其中 flag 就是转换类型BGR...

2020-04-25 18:37:13 171

原创学习-task02

思而不学犹豫不决浪费时间学而不思三心二意效率低下文章目录4 图像平移5 图像旋转6 图像翻转:效果图看晕我了4 图像平移图像平移平移函数：cv2.warpAffine()使用 Numpy 构建数据类型是np.float32的矩阵把构建的矩阵它传给函数 cv2.warpAffine()注意：函数 cv2.warpAffine() 的第三个参数的是输出图像的大小，...

2020-04-23 10:19:24 141

原创学习-task01

思而不学犹豫不决浪费时间学而不思三心二意效率低下文章目录1 Opencv安装2 图像概述2 第一个cv小程序：2.1 读取图像并显示2.2 保存图像2.3 demo小程序3 图像扩展缩放1 Opencv安装pip insatll opencv-python2 图像概述参考链接：https://blog.csdn.net/wohu1104/article...

2020-04-21 14:05:15 126

原创 task05：模型融合

思而不学犹豫不决文章目录1 回归、分类概率融合1）简单加权，结果直接融合2）Stacking融合(回归)2 分类模型融合1）Voting投票机制2）分类的Stacking\Blending融合3) 分类的Stacking融合(利用mlxtend)3 一些其它方法4 二手车数据使用加权融合Step 1：加载函数工具包Step 2：数据读取Step 3：数据预处理+特征工程Step 4：建...

2020-04-03 10:35:23 222

原创 DW组队学习-二手车交易价格预测Task04：建模调参

思而不学犹豫不决文章目录一建模调参Step 1:导入函数工具包Step 2:读取数据Step 3:建模与评估策略1）交叉验证2）学习率与学习曲线Step 4:模型调参策略1）贪心算法调参2）网格搜索调参3）贝叶斯调参一建模调参Step 1:导入函数工具包Step 2:读取数据df_train = pd.read_csv('used_car_train_20200313.csv...

2020-04-01 10:33:59 143

原创 DW组队学习-二手车交易价格预测Task03：特征工程

文章目录1 数据挖掘流程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已2 数据预处理和特征工程思维导图3 代码实例Step 1:导入函数工具箱Step 2:读取数据1) 合并训练集和测试集Step 3:EDA(见上章)Step 4:数据预处理1) 数据预处理：缺失值处理2) 数据预处理: 删除seller、offerType字段3) 数据预处理：对价格price进行log转换St...

2020-03-27 16:07:07 188

原创 DW组队学习-二手车交易价格预测

DataWhale组队学习-#### 数据挖掘 - 二手车交易价格预测任务目标：价格预测 -> price数据来源：某交易平台的二手车交易记录数据量：总数据量超过40w，包含31列变量信息，其中15列为匿名变量，从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B数据处理：已对name、model、brand和regionCode等信息进行脱敏。...

2020-03-21 09:28:22 257

sliceoflife的博客