自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Michaelangelo峰不暖

一路向北灬w

  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

转载 【转载】23个DS问题

DS产品问题

2022-10-24 15:50:12 424

原创 【面试】为什么均方差(MSE)不适合分类问题?

1.为什么均方差(MSE)不适合分类问题? **1.** 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下: (1)MSE对参数的偏导 (2)corss-entropy对参数的偏导 由上述公式可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的...

2021-07-26 20:09:03 2286 3

转载 CTR预估MF到FM FFM Wide&Deep DeepFM

【转载】个人总结:推荐算法 从MF(LFM) 到 FM FFM Wide&Deep DeepFM 在推荐系统中,经常会碰到电影评分这样高度稀疏的数据,在之前的个人总结:推荐算法篇(附协同过滤等) 综述的基于模型的协同过滤中,提到了FunkSVD(LFM,Latent Factor Model),通过设置隐含特征,进行矩阵分解,来实现对未知评分的预测。这里FM,和LFM一样,也是隐...

2021-07-26 17:27:17 278

原创 Python之美:一行python代码实现功能的趣味

1. Python之禅,一行代码输出“The Zen of Python” python -c "import this" 从“The Zen of Python”也能看出,Python倡导Beautiful、Explicit、Simple等原则,当然我们接下来要介绍的一行Python能实现好玩的功能,可能和Explicit原则相违背。 2. 一行代码启动一个Web服务 python -m S...

2019-05-24 15:44:53 1590

原创 【面试题】海量数据处理常见方法总结

Hash法:哈希表。用于快速存取、统计某些数据,将大量数据进行分类。例如提取某日访问网站次数最多的IP地址等。 Bit-map:使用位数组来表示某些元素是否存在。用于海量数据的快速查找、判重、删除等。如从8位电话号码中查找重复号码或统计不同号码的个数(可用多个bit表示一个数)。 Bloom Filter:位数组+k个hash函数。定义m位初始化都为0的数组,每个函数...

2019-05-14 17:43:12 241

转载 推荐系统各个领域数据集整理

本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。   Book · 1. Book Crossing Book...

2018-12-27 17:21:18 2791 3

转载 Wildcard Matching的几种解法与思路

Implement wildcard pattern matching with support for '?' and '*'.'?' Matches any single character. '*' Matches any sequence of characters (i...

2018-12-10 16:41:37 1546

原创 编辑距离算法详解和python代码

编辑距离(Levenshtein Distance)算法详解和python代码 最近做NLP用到了编辑距离,网上学习了很多,看到很多博客写的有问题,这里做一个编辑距离的算法介绍,步骤和多种python代码实现,编辑距离有很多个定义,比如Levenshtein距离,LCS距离,汉明距离等,我们这里将Levenshtein距离默认为编辑距离。 基本概念: 编辑距离是指两个字符串之间,由一个转成另一个所...

2018-12-10 16:33:07 5966 3

基于用户相似度和社会关系和地理位置三个因素的POI推荐系统(Foursquare数据和python代码)

最经典的基于用户相似度和社会关系和地理位置三个因素的POI推荐系统,压缩包里有3个python2.7的代码文件和3个数据文本,分别是foursquare签到数据,爬下来的用户好友关系数据,和POI的经纬度数据。代码可以直接运行【python filename.py】

2018-12-06

foursquare数据集2011-2013_美国各城市

数据集包含168个美国城市的foursquare签到数据,适合做基于地理位置的社交网络的研究

2018-01-23

推荐系统相似度python

基于社交网络的推荐系统需要的用户相似度物品相似度计算程序代码和测试代码,编程语言为python

2018-01-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除