自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 天池新闻推荐入门赛之【数据分析】Task02

特征含义user_id 用户idclick_article_id 点击文章idclick_timestamp 点击时间戳click_environment 点击环境click_deviceGroup 点击设备组click_os 点击操作系统click_country 点击城市click_region 点击地区click_referrer_type 点击来源类型article_id 文章id,与click_article_id相对应category_id 文章类型idcreated_a

2020-11-27 19:38:44 167

原创 零基础入门推荐系统: 1.赛题理解+baseline

一、赛题理解该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章,数据包括30万用户,近300万次点击,共36万多篇不同的新闻文章为了把该预测问题转成一个监督学习的问题,采用预测出某个用户最后一次对于某一篇文章会进行点击的概率的方法,将概率最大对应的新闻进行推荐。二、baseline# import packagesimport time, math, osfrom tqdm import t

2020-11-25 21:33:13 170

原创 推荐系统组队学习06、GBDT+LR

推荐系统之GBDT+LR 一、GBDT+LR1.背景2.GBDT+LR模型二. 逻辑回归模型三、GBDT模型四、GBDT+LR模型一、GBDT+LR1.背景前面介绍的协同过滤和矩阵分解存在劣势:仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。2.GBDT+LR模型2014年由Facebook提出的, 该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预

2020-10-30 23:06:23 143

原创 推荐系统组队学习04、FM因子分解机

由于LR模型的上述缺陷(主要是手动做特征交叉比较麻烦),干脆就考虑所有的二阶交叉项,也就是将目标函数由原来的y=w0+ sumi=1nwixi y = w_0 + \ sum_ {i = 1} ^ nw_ix_i y=w0​+ sumi=1n​wi​xi​转化y=w0+ sumi=1nwixi+ sumi=1n−1 sumi+1nwijxixj y = w_0 + \ sum_ {i = 1} ^ nw_ix_i + \ sum_ {i = 1} ^ {

2020-10-24 17:20:55 330

原创 推荐系统组队学习03、矩阵分解

矩阵分解矩阵分解矩阵分解算法的原理**矩阵分解算法的求解**Basic SVD编程实现补充协同过滤算法: 特点:仅利用了用户与物品的交互信息就可以实现推荐,是一个可解释性很强, 非常直观的模型问题:处理稀疏矩阵的能力比较弱解决:为了使得协同过滤更好处理稀疏矩阵问题, 增强泛化能力, 从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型理解:在协同过滤共现矩阵的基础上, 使用更稠密的隐向量表示用户和物品, 挖掘用户和物品的隐含兴趣和隐

2020-10-21 19:10:17 249

原创 推荐系统组队学习、简介

推荐系统简介核心内容:常用评测指标召回核心内容:协同过滤算法:包括基于用户的协同过滤(UserCF)和基于商品的协同过滤(ItemCF),这是入门推荐系统的人必看的内容,因为这些算法可以让初学者更加容易的理解推荐算法的思想。矩阵分解算法:矩阵分解算法通过引入了隐向量的概念,加强了模型处理稀疏矩阵的能力,也为后续深度学习推荐系统算法中Embedding的使用打下了基础。FM(Factorization Machines): 该算法属于对逻辑回归(LR)算法应用在推荐系统上的一个改进,在LR模

2020-10-19 22:20:32 218

原创 推荐系统组队学习(一)、协同过滤算法

PAlice,物品5=RˉAlice+∑k=12(SAlice,userk(Ruserk,物品5−Rˉuserk))∑k=12SAlice,userk=4+0.85∗(3−2.4)+0.7∗(5−3.8)0.85+0.7=4.87 P_{Alice, 物品5}=\bar{R}{Alice}+\frac{\sum{k=1}^{2}\left(S_{Alice,user k}\left(R_{userk, 物品5}-\bar{R}{userk}\right)\right)}{\sum{k=1}^{2} S_{A

2020-10-19 22:07:18 342

原创 数据挖掘组队学习-金融风控0基础入门-Task5

金融风控0基础入门-Task5 模型融合模型融合回归模型融合模型融合是把强分类器进行强强联合,变得更强。进行融合时,所需的集成个体(就是用来集成的模型)应该好而不同。好指的是个体学习器的性能要好,不同指的是个体模型的类别不同。模型融合的方式如下:平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测

2020-09-27 11:01:09 111

原创 数据挖掘组队学习-金融风控0基础入门-Task4

金融风控0基础入门-Task4 建模与调参内容逻辑回归模型:树模型:集成模型模型对比与性能评估:模型调参:总结内容逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型随机森林模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估:回归模型/树模型/集成模型;模型评估方法;模型评价结果;模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法;导入

2020-09-24 21:10:04 98

原创 数据挖掘组队学习-金融风控0基础入门-Task3

金融风控0基础入门-Task3 特征工程目标一、数据预处理二、异常值处理三、数据分箱四、特征交互五、特征编码六、特征选择目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索一、数据预处理 1.1 缺失值的填充numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)category

2020-09-21 22:04:32 222

原创 数据挖掘组队学习-金融风控0基础入门-Task2

金融风控0基础入门-Task2 数据分析目的学习目标内容一、数据总体了解二、缺失值和唯一值三、深入数据-查看数据类型四、数据间相关关系五、用pandas_profiling生成数据报告总结目的1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备学习目标1.学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)2.学习了解变

2020-09-18 22:16:50 148

原创 数据挖掘组队学习-金融风控0基础入门-Task1.2

金融风控0基础入门-Task1 分类算法评价指标混淆矩阵准确率(Accuracy)精准率(Precision)、召回率(Recall)P-R曲线F1-ScoreROC曲线AUC二级目录三级目录评价指标:是针对将相同的数据,输入不同的算法模型,或者输入不同参数的同一种算法模型,而给出这个算法或者参数好坏的定量指标。机器学习分类任务的常用评价指标:混淆矩阵(Confuse Matrix)准确率(Accuracy)精确率(Precision)召回率(Recall)P-R曲线(Precision-R

2020-09-16 14:57:48 145

原创 数据挖掘组队学习-金融风控0基础入门-Task1

金融风控0基础入门-Task1 赛题理解贷款违约预测背景目的步骤1. 赛题概括2. 数据概括3. 预测指标4. 赛题流程5. 操作读取数据6. 拓展 - 评分卡贷款违约预测背景金融风控中个人信贷为背景目的根据贷款申请人的数据信息,预测其是否有违约的可能,以判断是否通过该贷款,这是一个典型的分类问题。步骤赛题概括数据概括预测指标分析赛题赛题链接地址.1. 赛题概括根据给定的数据集,建立模型,预测金融风险。数据情况:总数据量超过120w,包含47列变量信息,其中15列为匿名变

2020-09-15 15:08:16 357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除