皮尔逊相关系数
用于确定用户a和用户b的相似度
是使用协方差除以两个变量的标准差得到的。用于考察两个变量之间的相关程度。
如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
(1)、当相关系数为0时,X和Y两变量无关系。
(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
K最近邻算法(K-Nearest Neighbor)
是最基本的分类算法,基本原理是:从最近的K个邻居(样本)中,选择出现次数最多的类别作为判定类别
KNN模型有三个基本要素:距离度量,K值的选择,分类决策规则决定。
- 常用的距离度量是欧氏距离。
- k值越小,k近邻模型更复杂,容易发生过拟合。 k值越大,整体模型更简单。
Sigmoid函数
sigmoid函数也叫Logistic函数,用于隐层神经元函数,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂不是特别大的时候效果特别好。
- 优点:平滑、易于求导
- 缺点:激活函数计算量大;反向传播时,很容易出现梯度消失的情况。