社交网络挖掘应用信息推测:模型设计与特征挖掘

该博客探讨了社交网络中好友推荐的问题,通过0/1特征、连续值特征转换,以及余弦相似性、调整余弦相似性和Jaccard相似性等方法进行特征挖掘。介绍了逻辑回归等机器学习模型用于好友关系预测,并强调了模型训练与验证的重要性。文章来源于一个数据挖掘课程,分享了学习笔记和优惠邀请码。
摘要由CSDN通过智能技术生成

案例 (新客好友推荐)

给定一个新用户p,一个老用户q,即(p,q)对,判断p是否愿意加q为好友,即make_friend(p,q)=1还是0?

0/1特征

对于上图横坐标的各种属性,我们可以将其变换为0/1特征,即:

连续值特征

 

补充:相似性计算

  • 余弦相似性 
    余弦相似度衡量的是2个向量间的夹角大小,通过夹角的余弦值表示结果,因此2个向量的余弦相似度为:


分子为向量A与向量B的点乘,分母为二者各自的L2范数相乘,即将所有维度值的平方相加后开方。 
余弦相似度的取值为[-1,1],值越大表示越相似。

  • 调整余弦相似性 
    调整余弦相似性与余弦相似性大致相同,所不同的是,A,B在减去用户平均评分向量后再代入余弦相似度公式中计算

  • Jaccard相似性 
    给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值


jaccard值越大说明相似度越高

特征组合


构造出特征的向量形式

预测值y (1代表是好友,0代表非好友)

构造训练集中的(X,y),然后学习函数f(X) —> y

指定待学习函数

有许多模型可以应用于函数f(x)的构造,下面是三种较为常用的模型

这些机器学习算法涉及到许多数学公式的推导,算法原理的解释,模型参数的选择等等。

以逻辑回归为例,模型的数学公式为:


在训练集里训练模型时,就是训练出a0,a1,a2这些系数的过程

选用不同的机器学习算法,得到的结果可能是不一样的。

验证结果

  • 在训练集中训练出模型
  • 将模型应用于验证集,预测验证集中的y值
  • 将预测的y值与验证集中真实的y值做比较,得到模型的准确率

 

 

注:这是最近刚入手的DC学院的《数据挖掘——网络挖掘》课程中的笔记,老师还是讲的很详细的,但是自己记的就比较粗糙了,将就看……分享我的邀请码:AFAJ9I    (够课的可以优惠),有需要自取。

课程网址:https://www.dcxueyuan.com//classDetail/classIntroduce/30/page.html?slxydc=c6a872

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值