论文解读:A content-based recommender system for computer science publications

摘要:计算机科学和信息技术对我们的生活产生了深远的影响,越来越多的论文向计算机科学杂志和会议投稿。为了帮助作者决定将论文投到哪里,本文提出了计算机科学领域期刊和会议推荐系统,这个推荐系统是基于内容的推荐系统。这一推荐系统的网址是: http://www.keaml.cn/prs/。这个系统可以基于论文的摘要推荐合适的期刊或者会议。为了紧跟计算机科学与技术的进展,使用网络爬虫来持续更新训练集以学习模型。为了达到在线交互,提出了一个基于卡方特征选择和softmax回归的高效的混合模型。本文的实验效果表明这个系统能够达到61.37%的准确率,平均推荐时间在5s之内。
1、引言
随着电子商务的繁荣发展,推荐系统几乎在所有方面都经历着快速的转变。推荐系统应用在很多领域,比如电影推荐、音乐推荐、新闻推荐、网页推荐等。很多公司都因推荐系统获益,比如亚马逊的图书推荐,Apple Music的音乐推荐,taobao的商品推荐。
尽管推荐系统应用在了很多领域,但是使用研究者撰写的计算机科学领域的论文的摘要来进行个性化推荐的还没有。随着人工智能和云计算的快速发展,越来越多的计算机科学领域的期刊和会议可供使用。计算机科学领域的会议达到了9585个,相关的期刊则达到了4152个。面对这么多的期刊和会议,作者很难选择自己的论文发表到哪里比较适合。如果将论文投递到一个不合适的期刊或会议,往往会遭到拒稿、延迟或者只有很少的阅读量。
为了帮助作者找到最合适发表论文的地方,以及加快论文发表的速度,本文提出了一个计算机科学领域出版物推荐系统,称为PRS。这个系统基于一个新的使用了卡方特征提取和softmax回归的内容过滤模型,能够提供实时的推荐。本文的贡献如下:
(1)PRS是一个非盈利的推荐系统,涵盖了超过5个电子图书馆的66种顶级刊物或者会议。涉及的电子图书馆如Springer, IEEE, ACM, AAAI和SIAM.只需使用论文的摘要或者全部内容作为输入,这个推荐系统就能够为作者同时推荐顶级期刊或会议。
(2)考虑到计算机科学领域快速发展以及语料库的日新月异,对前沿领域和主题的推荐能力是至关重要的。一旦训练集进行了更新,我们的推荐模型能够自动进行更新,从而确保能够高效地推荐前沿领域相关主题。
(3)PRS能够实时相应用户请求,而且能够方便地部署在服务器上。为了使PRS更加实用,PRS种使用地所有方法都具有较小的计算复杂度。
2、背景
在20实际末期,Armstrong等人在AAAI会议上提出了一个个性化的导航系统,名为 “Web Watcher”。与此同时,Balabanovic等人提出了名为“LIRA”的个性化推荐系统。在1995年8月,麻省理工学院的Henry Lieberman在IJCAI会议上提出了一个个性化的agent导航系统。1997年,AT&T 实验室提出了基于协同过滤的推荐系统,分别使“PHOAKS”和“Referral Web” 。1999年,德国德累斯顿工业大学的Tanja Joerding提出了个性化的电子商务原型系统’‘TELLIM’’。2001年,IBM在自己的电子商务网站上加入了个性化因素。2003年,Google从推荐系统“AdWards” 获得收益,这个系统能够更具用户的搜索词为用户提供相关的广告。2009年,2009年,Overstock(美国著名的在线零售商)开始使用ChoiceStream公司的个性化横幅广告程序,在一些人流量大的网站上投放产品广告。
以上这些推荐一般使通过两种方法:协同过滤或者基于内容的过滤。协同过滤方法从用户的历史行为以及其他用户的相似行为中学习模型,从而预测用户可能喜欢的item。基于内容的过滤则是使用item具体的属性,从而为用户推荐具有相似属性的item。这两个推荐方法可以结合起来,称为混合推荐方法。其他的一些方法比如社交网络和语义信息,也可以引入到推荐系统中。
基于内容的方法是通过为用户推荐与其喜欢的item在属性上相似的item。这种方法的一个假设是:相同属性的item在用户的购买行为上也具有相似性。基于内容的推荐系统使用的信息也一般是文本信息。可以使用TF-IDF(Term Frequency and Inverse Document Frequency)来描述item。一种标准的方法是从文档中选择单个单词。向量空间模型和潜在语义索引是使用这些术语将文档表示为多维空间中的向量的两种方法。在web2.0环境下,用户产生的标签、帖子、意见等文本信息剧增,基于内容的推荐系统显得尤为重要。
3、出版物推荐系统
本文提出的出版物推荐系统又特征选择和softmax回归两个模块构成。在特征选择模块,构造了特征向量空间,在softmax回归模块,使用特征向量训练softmax回归器。
3.1 特征选择模块
这一部分,简要描述TF-IDF以及3个特征选择模型。然后提出用于出版物推荐系统的特征选择方法。
3.1.1 TF-IDF
文档逆文档频率(Term frequency and inverse document frequency (TF-IDF))能够发现文档中重要词语。如果一个词语在某个文档中出现的频率高,但是在其他别的文档中出现的频率高,那么这个词语具有较高的权重。也就是说,一个词语在一个文档中的tfidf值越高,则这个词语对文档的重要性越大。tfidf的值由tf和idf两部分值构成。假设我们要计算词语w在文档d中的tf值,可用公式 t f = T / L tf=T/L tf=T/L,其中T是词语w在文档中出现的频数,L是文档d中单一词语的总个数。idf可以用公式 i d f = l o g D D i + 1 idf=log\frac{D}{D_i+1} idf=logDi+1D。D代表着文档的总数目, D i D_i Di代表着含有词语的w的文档数目。 t f − i d f = t f ∗ i d f tf-idf=tf*idf tfidf=tfidf
3.1.2 卡方特征选择
卡方统计衡量的是词语t和类别c(在本文中,类别是计算机杂志或者会议)之间的依赖关系。对于此应用t和类别c,可以使用表一展示的双向列联表获得χ2。
在这里插入图片描述
A代表属于类别c同时又包含词语t的文档数量。B代表不属于类别c但是包含词语t的文档数量。C是属于类别c但是不包含词语t的文档数量。D代表不属于类别c同时也不包含词语t的文档数量。N是文档总数量。词语t的卡方值表示见公式(5):
在这里插入图片描述
其中,A+C代表的是类别为c的文档数量,B+D是类别非c的文档数量。对于所有词语来说,A+C和B+D都是一个常数,所以公式(5)可以简化为:
在这里插入图片描述
如果词语t和类别c无关,则χ2值为0,相反,χ2越高代表词语t和类别c之间具有较高的依赖性。除了卡方特征选择之外,还有两种比较常用的特征选择模型—互信息和信息增益。
互信息和信息增益的计算见公式(7)(8)(9).

在这里插入图片描述
在这里插入图片描述
在实验部分衡量推荐系统性能时,以上三种特征提取模型都使用到了。
3.1.3 本文提出的模型
特征选择是为了提取出含有丰富信息量的特征。正如在之前部分提到的那样,χ2值能够用来衡量词语与类别之间的依赖程度。实际上,我们真正感兴趣的是哪些与类别具有较高依赖性的词语。我们使用公式(6)挑选与类别具有较高依赖性的词语,从而构造特征向量。
特别的,假设 N c N_c Nc表示训练集中类别的数量, t j i t_{j}^{i} tji表示第i个类别中的第j个词语。详细的过程如下。首先,进行文本预处理如分词、去停用词、词干提取等。然后,利用公式(6)计算第i个类别中第j个词语的卡方值。在这里插入图片描述
为 了构造有效的向量空间,将所有的在这里插入图片描述降序排列,使用前topM个词语构造第i个类别的特征向量空间 F V i {FV}^i FVi。最后,将所有的特征空间在这里插入图片描述进行组合,剔除重复的词语,重新构建特征向量空间。
在这里插入图片描述
N F V N_{FV} NFV是最终的特征向量空间中的元素数量。对于一个属于类别i的文档j,我们将其特征空间向量定义为在这里插入图片描述
f j i ( t k ) f_{j}^{i}(t_k) fji(tk)是属于类别i的文档j中词语 t k t_k tk的tfidf值,fig1显示了特征选择和向量生成方法。在这里插入图片描述
举个例子,假设现在在训练集中有多数文档,但这些文档只有两个类别,要么属于类别 c i c_i ci要么属于类别 c 2 c_2 c2。经过文本预处理之后,两个类别包含的词语分别为 t 1 = “ d e s p i t ” , “ s i g n i f i c ” , “ i n v e s t ” , “ c o m m e r c i ” t^1={“despit”, “signific”, “invest”,“commerci”} t1=despit,signific,invest,commerci t 2 = “ f a r ” , “ s o l v ” , “ w e e k ” , “ i n v e s t ” t^2={“far”, “solv”, “week”, “invest”} t2=far,solv,week,invest。接着,利用公式(6)计算 χ 2 ( t j i , c i ) χ2(t_{j}^{i},c_i) χ2(tji,ci),得到 χ 2 ( t j 1 , c 1 ) = 0.1 , 0.5 , 0.7 , 0.4 χ2(t_{j}^{1},c_1)={0.1,0.5,0.7,0.4} χ2(tj1,c1)=0.1,0.5,0.7,0.4, χ 2 ( t j 2 , c 2 ) = 0.1 , 0.3 , 0.2 , 0.8 χ2(t_{j}^{2},c_2)={0.1,0.3,0.2,0.8} χ2(tj2,c2)=0.1,0.3,0.2,0.8。这里令M=2,将词语按照χ2值降序排列,从 t i t^i ti中取topM个词语,从而构造特征向量空间 F V = “ s i g n i f i c ” , “ i n v e s t ” , “ s o l v ” FV= {“signific”, “invest”, “solv”} FV=signific,invest,solv。需要注意的是以上取值并不是实际实验中的取值,只是举例而已。
3.2 softmax回归模型
因为特征选择和特征向量空间已经构造完成,接下来能够比较容易地计算特征向量并且用来巡礼分类器。选择softmax回归作为分类器是因为在本文设计的推荐系统中,有大量期刊和会议,所有的期刊和会议都需要根据分类的分数高低进行排序,从而将排在前面的推荐给用户。
3.2.1 softmax回归
softmax回归是logistic回归的扩展,能够解决多分类问题。当类别数目c=2时,softmax回归退化为logistic回归。给定一个输入x,我们想要计算$p(y= j| x ) $的概率。(j=1,2,…k,k为类别数量)。所以softmax模型的输出是一个k维的向量,向量中各个元素的和为1.
在这里插入图片描述
在这里插入图片描述是模型中的参数。因为softmax回归的计算复杂度小,所以选择了softmax回归来预测推荐结果。
3.2.2 提出的方法
在特征提取之后,训练集使用特征向量空间表示。之后使用softmax回归作为分类器。当训练softmax回归模型时,样本(x,y)中的x和y分别代表特征向量和类别标签。特征向量使用公式(10)计算,特征向量作为softmax回归模型的输入。测试模型时,构造特征向量的方法与训练模型时一致。使用分类的结果来为论文推荐相应的期刊或者会议。特别的,在实验中,我们根据模型预测的结果为论文推荐top3个期刊或会议。原因是某些计算机期刊和会议的出版范围有很大的重叠(例如,国际计算机视觉会议,IEEE计算机视觉和模式识别会议以及IEEE图像处理会议)。因此,如果论文属于这些出版范围(例如图像分类),则其出版选择通常不止一个。
4. Experimental results and analysis
4.1 数据集
在本文的试验中,从不同期刊和会议收集论文摘要作为训练集。为了得到论文摘要和其他信息,设计了一个自动网络爬虫。手动收集了被中国计算机协会(CCF)列为A类的28个期刊和38个会议的首页链接。fig2展示了网络爬虫是如何执行的。
在这里插入图片描述
共有14012个记录包含标题、摘要、作者以及对应的论文链接。为了确保数据集中记录的准确性,对每一个期刊和会议中20%的论文摘要进行了人工核对。2/3的摘要作为训练集,其余的作为测试集。在试验中,仅考虑发表时间在2013年和2014年的论文。特别的,对于一些期刊或者会议,如果在2013和2014年没有足够的论文发表量,则考虑其他年份的论文。
4.2 文本预处理
文本预处理不仅能够减小计算复杂度,而且能够提高推荐效果。fig4显示了文本预处理的过程。在这里插入图片描述
首先,使用空格和标点符号进行分词。接着,停用表过滤掉一些比如占位符、连接词等无意义的词语。而且有一些词拥有相同的词根,但形式不一样。如create、created和creating。所以词干提取也是必要的,本文使用“Porter Stemmer” 进行词干提取。
4.3 实验及分析
本文的推荐系统能够提供两种推荐结果:单一类别和三种类别。当推荐结果为单一类别时 ,只推荐一个期刊或者会议,这种情况下对于评价推荐系统的效果是很严格的。当推荐结果为3个类别时,可以为一个论文推荐3个期刊或会议。在评价推荐效果时,只要论文所在的期刊或者会议在推荐列表之中,就认为推荐是成功的。推荐结果为三个类别时,用户也能够有更多的选择。另外,不同的会议或者期刊经常分享相同的出版范围,而且很多期刊论文是一些会议论文的延伸。
为了构造一个好的特征空间,本文使用了多种特征提取方法如卡方检验、互信息、信息增益进行对比实验。对于每一个类别,从中选取topM个词语来构造这个类别的特征空间。在本文,对M的取值进行了多组实验,为了在准确度和效率上去的较好的均衡,取M=200。随着M的不同,训练集测试集上的准确率变化如fig8所示。

在这里插入图片描述
.然后将各个类别的特征空间 F V 1 , F V 2 , . . . , F V N c {FV}^1,{FV}^2,...,{FV}^{N_c} FV1,FV2,...,FVNc进行合并,同时去除重复的词语。最终,在使用卡方特征提取方法保留下来的词语数目为11521. 对于互信息和信息增益方法,也取M=200,使用互信息特征提取方法保留下来词语数目为12696,使用信息增益特征提取方法保留下来的词语数目为6101。
本文使用的评价指标有Accuracy、F-measure和ROC。由于本文是多标签分类问题,所以使用的是macro-averaged ROC
在这里插入图片描述

在这里插入图片描述

其中 P i P_i Pi表示的是预测为第i类的测试样本, G i G_i Gi代表的是标签标记为第i类的样本。 T P i TP_i TPi代表实际为正例,预测也为正例的样本数目, F N i FN_i FNi代表实际为负例预测为正例的样本数目, F P i FP_i FPi代表实际为正例,预测为负例的样本数目, T N i TN_i TNi代表实际为负例,预测也为负的样本数量。
figs6-8显示了当特征选择模型分别使用卡方、互信息和信息增益时,随着每个类别保留的特征词数量的不一样(也就是M取值不一样),在训练集和测试集上准确率的变化。

在这里插入图片描述
在fig6,可以很明显地看出来,当每个类别选择的特征词数量在60左右时,基于MI(互信息)的模型在训练集上准确率很高,但在测试集上准确率很低。也就是说模型泛化性能不好。原因是给予MI的模型选择了噪声特征。这些噪声特征在训练集上能够很好的训练,但影响例测试集的效果。随着每个类别特征词数量取值大于150时,模型的泛化性能逐渐变好 ,这是因为这时测试集和训练集上的词语有了较大的识别力。
在fig7和fig8,当特征空间增大时,模型性能也随之增加。从图上可以看出基于卡方和基于信息增益的模型提取出的特征比基于互信息的模型提取的特征识别度高。而且基于卡方特征选择的模型优于基于互信息和基于信息增益的模型。
在fig9,我们可以看出,基于卡方和基于信息增益的模型AUCs(曲线下方的面积)的值比基于互信息的模型AUCs的值高。基于卡方的模型AUC 0.9404,基于信息增益的模型AUC值是0.9415。AUC这个指标上,基于卡方的模型和基于信息增益的模型都比基于互信息的模型的AUC取值高了大约14.5%。通过AUC这个指标的对比,说明在出版物推荐中,不适合使用互信息进行特征选择,使用卡方统计和信息增益进行特征提取是比较适合的。
在这里插入图片描述
从table2,我们可以看出:
(1)推荐结果为3类时比推荐结果为1类时在各个指标上都高。例如,在top3任务中,基于卡方的分类模型的准确度达到61.37%,比top1任务的准确率高了75.2%。这是因为推荐top3时,能够有更大的选择空间。只推荐一个结果对于推荐来说太严格了。
(2)基于卡方特征提取的模型与使用互信息和信息增益进行信息提取的模型相比,在准确率指标和F-measure指标上都取得了最高值。例如,基于卡方的模型在top3推荐任务中准确率为61.37%,比同任务下基于互信息的模型高了49.6%,比基于信息增益的模型高了1.4%。这是因为在特征选择时,基于卡方的特征选择考虑了词语与类别的依赖性。与此同时,在较为严格的top1推荐任务中,基于卡方的模型准确率达到35.03%,F-measure达到0.18,指标取值也都高于另外两种方法。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值