- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 【面试】为什么均方差(MSE)不适合分类问题?
1.为什么均方差(MSE)不适合分类问题? **1.** 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下: (1)MSE对参数的偏导 (2)corss-entropy对参数的偏导 由上述公式可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的...
2021-07-26 20:09:03 2286 3
转载 CTR预估MF到FM FFM Wide&Deep DeepFM
【转载】个人总结:推荐算法 从MF(LFM) 到 FM FFM Wide&Deep DeepFM 在推荐系统中,经常会碰到电影评分这样高度稀疏的数据,在之前的个人总结:推荐算法篇(附协同过滤等) 综述的基于模型的协同过滤中,提到了FunkSVD(LFM,Latent Factor Model),通过设置隐含特征,进行矩阵分解,来实现对未知评分的预测。这里FM,和LFM一样,也是隐...
2021-07-26 17:27:17 278
原创 Python之美:一行python代码实现功能的趣味
1. Python之禅,一行代码输出“The Zen of Python” python -c "import this" 从“The Zen of Python”也能看出,Python倡导Beautiful、Explicit、Simple等原则,当然我们接下来要介绍的一行Python能实现好玩的功能,可能和Explicit原则相违背。 2. 一行代码启动一个Web服务 python -m S...
2019-05-24 15:44:53 1590
原创 【面试题】海量数据处理常见方法总结
Hash法:哈希表。用于快速存取、统计某些数据,将大量数据进行分类。例如提取某日访问网站次数最多的IP地址等。 Bit-map:使用位数组来表示某些元素是否存在。用于海量数据的快速查找、判重、删除等。如从8位电话号码中查找重复号码或统计不同号码的个数(可用多个bit表示一个数)。 Bloom Filter:位数组+k个hash函数。定义m位初始化都为0的数组,每个函数...
2019-05-14 17:43:12 241
转载 推荐系统各个领域数据集整理
本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。 Book · 1. Book Crossing Book...
2018-12-27 17:21:18 2791 3
转载 Wildcard Matching的几种解法与思路
Implement wildcard pattern matching with support for '?' and '*'.'?' Matches any single character. '*' Matches any sequence of characters (i...
2018-12-10 16:41:37 1546
原创 编辑距离算法详解和python代码
编辑距离(Levenshtein Distance)算法详解和python代码 最近做NLP用到了编辑距离,网上学习了很多,看到很多博客写的有问题,这里做一个编辑距离的算法介绍,步骤和多种python代码实现,编辑距离有很多个定义,比如Levenshtein距离,LCS距离,汉明距离等,我们这里将Levenshtein距离默认为编辑距离。 基本概念: 编辑距离是指两个字符串之间,由一个转成另一个所...
2018-12-10 16:33:07 5966 3
基于用户相似度和社会关系和地理位置三个因素的POI推荐系统(Foursquare数据和python代码)
2018-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人