自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(10)
  • 资源 (9)
  • 收藏
  • 关注

原创 Wide&Deep/DeepFM

基于DNN的推荐算法引入背景推荐系统的一大挑战是同时具备”记忆能力“和”泛化能力“。”记忆能力“:学习那些经常同时出现的特征,发觉历史数据中存在的共现特性。”泛化能力“:基于迁移相关性,探索之前几乎没出现过的新特征组合。基于嵌入的模型(FM)对之前没出现过的特征具备二阶泛化能力,即为每个query和item特征学习一个低维稠密的嵌入向量。但FM很难有效学习低维表示,当query-item矩...

2019-04-20 18:13:53 1283

原创 FM/FFM

FM背景及相关算法对比(1)FM(factorization machine)是在LR(logistic regression)基础上,加入了特征的二阶组合项;(2)SVM和FM的主要区别在于,SVM的二元特征交叉参数是独立的,如wijw_{ij}wij​,而FM的二元特征交叉参数是两个k维的向量vi、vjv_i、v_jvi​、vj​,即<vi,vj>&lt...

2019-04-20 16:11:37 761

原创 Tensorflow之softmax_v.s._sigmoid

多分类softmax激活函数 & 二分类sigmoid激活函数(1)多分类:样本属于第kkk个类别(总共KKK个类别)的概率Sk=exk∑i=1KexiS_k=\frac{e^{x_k}}{\sum\limits_{i=1}^K e^{x_i}}Sk​=i=1∑K​exi​exk​​其中xkx_kxk​是样本经过隐层线性组合后的结果。(2)二分类:样本属于正类1(正类1、负类0)的...

2019-04-18 17:59:57 314

原创 GBDT+LR

用GBDT构造组合特征的原理【1】 首先,用GBDT对原始训练数据做训练,得到一个二分类器,利用网格搜索寻找最佳参数组合。【2】GBDT训练好做预测的时候,把模型中的每棵树计算得到的/预测概率值所属的叶子结点位置记为1,这样,就针对每个样本行/构造出了新的训练数据。【3】新的训练数据构造完后,与原始训练数据中的label(输出)数据一并输入到Logistic Regression分类器中进行...

2019-04-18 17:58:52 527

原创 LFM/funk-SVD

隐语义模型(LFM)通过隐含特征(latent factor)联系用户兴趣和物品。比如给用户推荐图书的场景,隐含特征可以是图书的类别。通过降维的方法补全评分矩阵。算法理论用户uuu对物品iii的兴趣rui=puTqi=∑k=1Kpu,kqi,kr_{ui}=p^T_u q_i=\sum\limits_{k=1}^K p_{u,k}q_{i,k}rui​=puT​qi​=k=1∑K​pu,k...

2019-04-18 17:58:00 913

原创 user-based CF

user-based CF当一个用户A需要个性化推荐时,先找到"和A有相似兴趣的其他用户",然后把"这些用户喜欢&A没听过的物品"推荐给A。算法步骤(1)找到和目标用户兴趣相似的用户集合(2)找到这个集合中的用户喜欢的&目标用户没听说过的物品推荐给目标用户wuv=∣N(u)∩N(v)∣∣N(u)∪N(v)∣,wuv=∣N(u)∩N(v)∣∣N(u)∣∣N(v)∣w_{uv...

2019-04-18 17:55:05 965

原创 item-based CF

item-based CF给用户推荐那些和他们之前喜欢的物品相似的物品。item-based CF并不是利用物品的内容属性计算物品之间的相似度,主要是通过分析用户的行为记录计算物品间的相似度。算法步骤(1)计算物品之间的相似度(2)根据物品的相似度和用户的历史行为,给用户生成推荐列表wij=∣N(i)∩N(j)∣∣N(i)∣w_{ij}=\frac{|N(i)\cap N(j)|}{|N...

2019-04-18 17:49:44 1363 1

原创 推荐系统常见问题

(一)哈利波特问题问题:购买任何一本书的人似乎都会购买《哈利波特》,因为《哈利波特》太热门了,确实是购买任何一本书的人几乎都会购买它。解决方案:(1)在item-based CF的相似度计算公式的分母上,加大对热门物品的惩罚wij=∣N(i)∩N(j)∣∣N(i)∣1−α∣N(j)∣αw_{ij}=\frac{|N(i)\cap N(j)|}{|N(i)|^{1-\alpha}|N(j)|...

2019-04-18 17:46:35 2500

原创 推荐系统简介

推荐系统存在的前提(1)信息过载;(2)用户需求不明确推荐系统的目标连接用户和物品,发现长尾商品;留住用户和内容生产者,实现商业目标推荐系统的应用领域新闻资讯推荐;短视频推荐;商品推荐推荐系统的评估用户——满足需求内容提供方——获取长尾流量,获得互动和认可网站——留住用户,实现商业目标评估指标准确性;满意度;覆盖率;多样性;新颖性;惊喜度;信任度;实时性;鲁棒性;可扩展性;商...

2019-04-18 17:45:00 516

原创 NLP框架

什么是自然语言处理?语言模型语料库和语言知识库词法分析句法分析语义分析词向量文本分类机器翻译信息抽取篇章分析问答系统什么是自然语言处理?计算机可以根据人类语言建模成计算机可以理解的信息,并且可以将这些信息利用起来,实现一个有用的系统。###语言模型(Bi-Gram/Tri-Gram/N-Gram)频率派:统计不同词汇出现频率,从而知道某个词汇之后出现下一个词的概率。放...

2019-04-01 18:15:36 2851

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除