自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

sinat_34971932的博客

原创为什么深度学习的结构特点不利于稀疏特征向量的处理呢？

为什么深度学习的结构特点不利于稀疏特征向量的处理呢？一方面，如果我们深入到神经网络的梯度下降学习过程就会发现，特征过于稀疏会导致整个网络的收敛非常慢，因为每一个样本的学习只有极少数的权重会得到更新，这在样本数量有限的情况下会导致模型不收敛。另一个方面，One-hot 类稀疏特征的维度往往非常地大，可能会达到千万甚至亿的级别，如果直接连接进入深度学习网络，那整个模型的参数数量会非常庞大，这对于一般公司的算力开销都是吃不消的。所以基于上面两个原因，我们往往先通过 Embedding 把原始稀疏特征稠密化，

2021-08-09 15:37:53 714

原创推荐系统FM、FFM、deepFM

推荐系统串联知识推荐系统遇上深度学习(一)–FM模型理论和实践推荐系统遇上深度学习(二)–FFM模型理论和实践推荐系统遇上深度学习(三)–DeepFM模型理论和实践...

2020-04-02 11:10:29 320

转载深度排序模型概述（一）Wide&Deep/xDeepFM

https://www.cnblogs.com/hellojamest/p/11067736.html本文记录几个在广告和推荐里面rank阶段常用的模型。广告领域机器学习问题的输入其实很大程度了影响了模型的选择，因为输入一般维度非常高，稀疏，同时包含连续性特征和离散型特征。模型即使到现在DeepFM类的方法，其实也都很简单。模型的发展主要体现于对特征的充分挖掘上，比如利用低阶和高阶特征、尝试自...

2020-03-24 14:40:53 710

原创文本特征向量化

一、词袋模型词袋模型将所有的词构建成一个向量，不考虑顺序，只统计每篇文档钟词出现的次数，直接构建特征。词袋模型的问题：。。无法区分同义词、多义词：如：用户浏览羽绒服后，只召回羽绒服，无法召回相近含义的“棉衣”。。维度高计算缓慢、存储量大xin。。信息量小一个词能传达的信息有限，不可调节；这个和N-gram相比，有很大缺陷。。不稳定受表达方式，习惯等影响，每个人都不一样...

2020-02-01 21:21:20 754

原创 PCA的一些理解

1. PCA的原理理解PCA 要求原始数据经过新的线性变换，尽可能保留原始数据大部分的信息；PCA的变化要求，找到一组新的基（基之间内积为0，且为了计算方便，这组基经过标准化，即为标准正交基），进行变换，将原始数据投影到新的基上，进行变换，为了保留原始数据大部分的信息，因此希望投影尽可能分散；故越分散，保留原始数据信息越多；与此同时，越分散，导致这个主成分内部，方差越大；因此方差越大的主成分保...

2020-01-20 16:20:17 866

原创一些算法笔记（XGboost、梯度下降法、L1与L2正则化、Logistic回归）

1.Xgboost是一种串行的算法，如何实现并行操作XGboost算法：树和树之间是串行的，下一棵树生成与上一棵树有关；并行主要体现在对特征的选择，分裂点计算上是可以并行的（单棵树生长上特征是可以并行的）2. XGboost最后的score如何使用XGboost是有CART回归树构成的，每棵树输出的是一个值score;汇总求和多棵树得到每个样本的score回归问题：直接使用分类问题：...

2019-12-11 11:51:45 1994

原创 Python数据分析与seaborn使用

1. groupby+agg+(‘mean’,‘count’,‘size’) 与pivot_table中文为数据透视表titanic_df[['Pclass','Sex','PassengerId']].groupby(['Pclass','Sex']).count()titanic_df.pivot_table(values='PassengerId',index = ['Pclass'...

2019-12-05 20:26:51 489 1

原创缺失值需要处理吗

缺失值处理现实应用中，经常会遇到属性值“缺失”(missing)现象只使用没有缺失值的样本/属性？》会造成数据的极大浪费一、在逻辑回归等需要计算综合值时，缺失值需要处理（分箱时用特殊值替换，然后单独分一箱）在使用scikit-learn中缺失值需要填充处理。二、XGboost，LightGBM工具库内部很完善，对缺失值已经做过相应处理。三、在决策树中，如果使用带缺失值得样例，需解决...

2019-12-02 16:58:04 2886

原创 MapReduce学习一些笔记

1.简述Hadoop的优点有哪些？Spark与之相比又有哪些优点？hadoop是一个适合大数据的分布式存储和计算的平台。它具有如下优点：• 低成本:hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。• 高效性:这也是hadoop的核心竞争优势所在，接受到客户的数据请求后，hadoop可以在数据所在的集群节点上并发处理。•...

2019-12-01 14:49:40 446

原创 HIVE中常用的关键词在执行中注意点

一、查询语句中select 、from 、where、 group by、 having、 order by的执行顺序1.查询中用到的关键词主要包含六个，并且他们的顺序依次为select–from–where–group by–having–order by其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的，而是按照下面的顺序...

2019-11-29 16:56:49 706

原创树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防；回归树（CART树）

1.信息熵、信息增益、信息增益率 **信息熵：**衡量的是

2019-11-28 15:54:03 672

原创逻辑回归(Logistic Regression)中一些理解性问题

拟合问题：1.在线性回归中，我们使用ax+b 去拟合y ；但广义线性回归（如Logistic Regression），我们其实是用ax+b去拟合lny, 即是去拟合原始标签y变换后的结果；用广义线性模型去逼近一些不是线性的模型；lny = ax+b2.或者说用线性回归做变换后去拟合真是的y，使得广义线性模型具备很好的非线性拟合能力。分类问题：在逻辑回归(Logistic Regres...

2019-11-28 15:25:45 459

原创机器学习的评估方法和度量指标

机器学习的评估方法和度量指标一、评估方法1.留出法注意点2. k折交叉验证3.自助法(bootstrap)二、机器学习的评估度量标准1.回归场景2.分类场景一、评估方法以什么样方式进行评估，获取可靠的测试集数据，测试集数据与训练集数据互斥，测试数据不能用于参数调优。常见方法：留出法，k折交叉验证，自助法（bootstrap）1.留出法将全量数据集分为训练集和测试集；即是留出一部分做测试...

2019-11-25 22:21:22 430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除