自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 为什么深度学习的结构特点不利于稀疏特征向量的处理呢?

为什么深度学习的结构特点不利于稀疏特征向量的处理呢?一方面,如果我们深入到神经网络的梯度下降学习过程就会发现,特征过于稀疏会导致整个网络的收敛非常慢,因为每一个样本的学习只有极少数的权重会得到更新,这在样本数量有限的情况下会导致模型不收敛。另一个方面,One-hot 类稀疏特征的维度往往非常地大,可能会达到千万甚至亿的级别,如果直接连接进入深度学习网络,那整个模型的参数数量会非常庞大,这对于一般公司的算力开销都是吃不消的。所以基于上面两个原因,我们往往先通过 Embedding 把原始稀疏特征稠密化,

2021-08-09 15:37:53 695

原创 推荐系统FM、FFM、deepFM

推荐系统串联知识推荐系统遇上深度学习(一)–FM模型理论和实践推荐系统遇上深度学习(二)–FFM模型理论和实践推荐系统遇上深度学习(三)–DeepFM模型理论和实践...

2020-04-02 11:10:29 302

转载 深度排序模型概述(一)Wide&Deep/xDeepFM

https://www.cnblogs.com/hellojamest/p/11067736.html本文记录几个在广告和推荐里面rank阶段常用的模型。广告领域机器学习问题的输入其实很大程度了影响了模型的选择,因为输入一般维度非常高,稀疏,同时包含连续性特征和离散型特征。模型即使到现在DeepFM类的方法,其实也都很简单。模型的发展主要体现于对特征的充分挖掘上,比如利用低阶和高阶特征、尝试自...

2020-03-24 14:40:53 700

原创 文本特征向量化

一、词袋模型词袋模型将所有的词构建成一个向量,不考虑顺序,只统计每篇文档钟词出现的次数,直接构建特征。词袋模型的问题:。。无法区分同义词、多义词:如: 用户浏览羽绒服后,只召回羽绒服,无法召回相近含义的“棉衣”。。维度高计算缓慢、存储量大xin。。信息量小一个词能传达的信息有限,不可调节;这个和N-gram相比,有很大缺陷。。不稳定受表达方式,习惯等影响,每个人都不一样...

2020-02-01 21:21:20 740

原创 PCA的一些理解

1. PCA的原理理解PCA 要求原始数据经过新的线性变换,尽可能保留原始数据大部分的信息;PCA的变化要求,找到一组新的基(基之间内积为0,且为了计算方便,这组基经过标准化,即为标准正交基),进行变换,将原始数据投影到新的基上,进行变换,为了保留原始数据大部分的信息,因此希望投影尽可能分散;故越分散,保留原始数据信息越多;与此同时,越分散,导致这个主成分内部,方差越大;因此方差越大的主成分保...

2020-01-20 16:20:17 787

原创 一些算法笔记(XGboost、梯度下降法、L1与L2正则化、Logistic回归)

1.Xgboost是一种串行的算法,如何实现并行操作XGboost算法: 树和树之间是串行的,下一棵树生成与上一棵树有关;并行主要体现在对特征的选择,分裂点计算上是可以并行的(单棵树生长上特征是可以并行的)2. XGboost最后的score如何使用XGboost是有CART回归树构成的,每棵树输出的是一个值score;汇总求和多棵树得到每个样本的score回归问题:直接使用分类问题:...

2019-12-11 11:51:45 1968

原创 Python数据分析与seaborn使用

1. groupby+agg+(‘mean’,‘count’,‘size’) 与pivot_table中文为数据透视表titanic_df[['Pclass','Sex','PassengerId']].groupby(['Pclass','Sex']).count()titanic_df.pivot_table(values='PassengerId',index = ['Pclass'...

2019-12-05 20:26:51 470 1

原创 缺失值需要处理吗

缺失值处理现实应用中,经常会遇到属性值“缺失”(missing)现象只使用没有缺失值的样本/属性 ?》会造成数据的极大浪费一、在逻辑回归等需要计算综合值时,缺失值需要处理(分箱时用特殊值替换,然后单独分一箱)在使用scikit-learn中缺失值需要填充处理。二、XGboost,LightGBM工具库内部很完善,对缺失值已经做过相应处理。三、在决策树中,如果使用带缺失值得样例,需解决...

2019-12-02 16:58:04 2853

原创 MapReduce学习一些笔记

1.简述Hadoop的优点有哪些?Spark与之相比又有哪些优点?hadoop是一个适合大数据的分布式存储和计算的平台。它具有如下优点:• 低成本:hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。• 高效性:这也是hadoop的核心竞争优势所在,接受到客户的数据请求后,hadoop可以在数据所在的集群节点上并发处理。•...

2019-12-01 14:49:40 434

原创 HIVE中常用的关键词在执行中注意点

一、 查询语句中select 、from 、where、 group by、 having、 order by的执行顺序1.查询中用到的关键词主要包含六个,并且他们的顺序依次为select–from–where–group by–having–order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序...

2019-11-29 16:56:49 689

原创 树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防;回归树(CART树)

1.信息熵、信息增益、信息增益率 **信息熵:**衡量的是

2019-11-28 15:54:03 654

原创 逻辑回归(Logistic Regression)中一些理解性问题

拟合问题:1.在线性回归中,我们使用ax+b 去拟合y ;但广义线性回归(如Logistic Regression),我们其实是用ax+b去拟合lny, 即是去拟合原始标签y变换后的结果;用广义线性模型去逼近一些不是线性的模型;lny = ax+b2.或者说用线性回归做变换后去拟合真是的y,使得广义线性模型具备很好的非线性拟合能力。分类问题:在逻辑回归(Logistic Regres...

2019-11-28 15:25:45 437

原创 机器学习的评估方法和度量指标

机器学习的评估方法和度量指标一、评估方法1.留出法注意点2. k折交叉验证3.自助法(bootstrap)二、 机器学习的评估度量标准1.回归场景2.分类场景一、评估方法以什么样方式进行评估,获取可靠的测试集数据,测试集数据与训练集数据互斥,测试数据不能用于参数调优。常见方法:留出法,k折交叉验证,自助法(bootstrap)1.留出法将全量数据集分为训练集和测试集;即是留出一部分做测试...

2019-11-25 22:21:22 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除