Michaelangelo峰-CSDN博客

原创【面试】为什么均方差（MSE）不适合分类问题？

1.为什么均方差（MSE）不适合分类问题？ **1.** 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下： (1)MSE对参数的偏导 (2)corss-entropy对参数的偏导由上述公式可以看出，在使用MSE时，w、b的梯度均与sigmoid函数对z的...

2021-07-26 20:09:03 2286 3

转载 CTR预估MF到FM FFM Wide&Deep DeepFM

【转载】个人总结：推荐算法从MF(LFM) 到 FM FFM Wide&Deep DeepFM 在推荐系统中，经常会碰到电影评分这样高度稀疏的数据，在之前的个人总结：推荐算法篇（附协同过滤等）综述的基于模型的协同过滤中，提到了FunkSVD(LFM，Latent Factor Model)，通过设置隐含特征，进行矩阵分解，来实现对未知评分的预测。这里FM，和LFM一样，也是隐...

2021-07-26 17:27:17 278

1. Python之禅，一行代码输出“The Zen of Python” python -c "import this" 从“The Zen of Python”也能看出，Python倡导Beautiful、Explicit、Simple等原则，当然我们接下来要介绍的一行Python能实现好玩的功能，可能和Explicit原则相违背。 2. 一行代码启动一个Web服务 python -m S...

2019-05-24 15:44:53 1590

原创【面试题】海量数据处理常见方法总结

Hash法：哈希表。用于快速存取、统计某些数据，将大量数据进行分类。例如提取某日访问网站次数最多的IP地址等。 Bit-map：使用位数组来表示某些元素是否存在。用于海量数据的快速查找、判重、删除等。如从8位电话号码中查找重复号码或统计不同号码的个数（可用多个bit表示一个数）。 Bloom Filter：位数组+k个hash函数。定义m位初始化都为0的数组，每个函数...

2019-05-14 17:43:12 241

转载推荐系统各个领域数据集整理

本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中，大多数数据集都是免费、开放的，但有些不是，需要获得许可或引用作者的工作才能使用。此外，其中也包含一些预处理数据，可用于学术实验。链接和数据集描述。   Book · 1. Book Crossing Book...

2018-12-27 17:21:18 2791 3

转载 Wildcard Matching的几种解法与思路

Implement wildcard pattern matching with support for&nbsp;'?'&nbsp;and&nbsp;'*'.'?' Matches any single character. '*' Matches any sequence of characters (i...

2018-12-10 16:41:37 1546

原创编辑距离算法详解和python代码

编辑距离（Levenshtein Distance）算法详解和python代码最近做NLP用到了编辑距离，网上学习了很多，看到很多博客写的有问题，这里做一个编辑距离的算法介绍，步骤和多种python代码实现，编辑距离有很多个定义，比如Levenshtein距离，LCS距离，汉明距离等，我们这里将Levenshtein距离默认为编辑距离。基本概念：编辑距离是指两个字符串之间，由一个转成另一个所...

2018-12-10 16:33:07 5966 3

基于用户相似度和社会关系和地理位置三个因素的POI推荐系统(Foursquare数据和python代码)

最经典的基于用户相似度和社会关系和地理位置三个因素的POI推荐系统，压缩包里有3个python2.7的代码文件和3个数据文本，分别是foursquare签到数据，爬下来的用户好友关系数据，和POI的经纬度数据。代码可以直接运行【python filename.py】

2018-12-06

foursquare数据集2011-2013_美国各城市

数据集包含168个美国城市的foursquare签到数据，适合做基于地理位置的社交网络的研究

2018-01-23

Michaelangelo峰不暖

转载【转载】23个DS问题

原创【面试】为什么均方差（MSE）不适合分类问题？

转载 CTR预估MF到FM FFM Wide&Deep DeepFM

原创 Python之美：一行python代码实现功能的趣味

原创【面试题】海量数据处理常见方法总结

转载推荐系统各个领域数据集整理

转载 Wildcard Matching的几种解法与思路

原创编辑距离算法详解和python代码

基于用户相似度和社会关系和地理位置三个因素的POI推荐系统(Foursquare数据和python代码)

foursquare数据集2011-2013_美国各城市

推荐系统相似度python

空空如也