2018年09月_yann.bai

10月 09月 04月 01月

原创【笔记】隐语义模型

首先，存在一个用户电影打分矩阵Y，然后你要做的任务就是将这个矩阵分解为一个用户特征矩阵X，一个电影特征矩阵Q，即X矩阵里面是一些用户的特征，在给用户推荐时你可以根据计算用户的特征矩阵的皮尔逊相似度找出最相似的用户，然后进行你后期的一些推荐；Q里面是一些电影的特征，你要找一些相似电影的时候，可以计算这些电影的特征矩阵之间的相似度找出相似的电影，可以用距离进行衡量，也可以用pearson进行衡量，就可...

2018-09-20 09:42:39 456

原创【协同过滤笔记】冷启动问题

（1）用户冷启动（2）物品冷启动

2018-09-20 09:22:43 2417

原创【笔记】pearson相关系数

首先计算协方差，然后用协方差去除以变量标准差之积，去得到两个变量之间的一个皮尔逊相关系数。协方差可以理解为两个向量之间的变化趋势一样，一个增大时另一个也增大，即一致，变化范围为【-1，1】，若为+1，则为正相关，若为-1，则为负相关，即下图的两种情况。最后的一个计算的具体步骤为：常用在推荐系统中。...

2018-09-20 09:08:33 1118

原创朴素贝叶斯

今天看来朴素贝叶斯，最大的进步我觉得就是知道了她的一个非常重要的用途，用作文本分类任务，下面是copy两个大佬的代码，用来进行记忆：#!/usr/bin/python# coding:utf-8from numpy import *from math import *def loadDataSet(): postingList = [['my', 'dog', 'has'...

2018-09-16 20:24:49 107

原创 KNN中的kd树笔记

首先，讲一下kd树的概念，实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的效率，可以考虑使用特殊的结构存储训练数据，以减小计算距离的次数。看来统计学习中的kd树的讲...

2018-09-16 16:34:15 182

原创梯度概念

梯度是一个向量；既有大小，也有方向。函数z=f(x,y)在点P0处的梯度方向是函数变化率(即方向导数)最大的方向。梯度的方向就是函数f(x,y)在这点增长最快的方向，梯度的模为方向导数的最大值。梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。梯度概念是建立在偏...

2018-09-16 13:05:08 7925