科研学习 论文解读——面向电商内容安全风险管控的协同过滤推荐算法研究(1)

面向电商内容安全风险管控的协同过滤推荐算法研究 - 中国知网 (cnki.net)")

面向电商内容安全风险管控的协同过滤推荐算法研究*

摘  要:**[目的/意义]随着电商平台商家入驻要求降低以及商品上线审核流程简化,内容安全风险问题成为协同过滤推荐算法伦理审查的核心问题之一。[方法/过程]本文将内容安全风险问题纳入用户协同过滤推荐算法的优化过程,提出一种改进的推荐算法。首先,采用混合研究方法对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定;然后,利用图像增强和关键词提取技术构建识别内容安全风险商品的多模态特征库,用于训练不同模态深度学习识别模型;再次,利用深度学习、多模态融合和均值聚类等技术对经典CFR算法进行改进,提出面向电商内容安全风险管控的CSCFR算法;最后,基于3个新数据集设计并实施对照实验,证明该算法在内容安全风险、精度、召回率和稳定性上的优越性。[结果/结论]**与最新推荐算法相比,本文所提算法不仅显著提升了内容安全性,而且在精度等性能指标上也略有提升。

关键词:伦理审查;内容安全风险;评分矩阵;协同过滤;特征库;推荐算法

A Collaborative Filtering Recommendation Algorithm for E-commerce Content Security Risk Control

Abstract: [Purpose/significance] With the reduction of merchants’ entry requirements and the simplification of product online review process in e-commerce platforms, content security risk has become one of the core issues of ethical review of Collaborative Filtering Recommendation (CFR) Algorithms.[Method/process]For this reason, this paper incorporated the content security risk into the optimization process of user-based collaborative filtering recommendation algorithm and proposed an improved algorithm. Firstly, a mixed research method was identify the external manifestations, characteristics, classification, and risk degree of products with content security risks. Secondly, this paper constructed a multi-modal feature base for products with content security risks by using image enhancement and keyword extraction technology to train deep learning recognition models of different modalities. Thirdly, by adopting deep learning, multimodal fusion, and mean clustering techniques, this paper proposed a Content Security-oriented Collaborative Filtering Recommendation (CSCFR) algorithm to reduce the content security risk of the algorithm recommendation. Finally, the superiority of the CSCFR algorithm in violation, precision, recall, and stability were demonstrated through three rigorous controlled experiments.[Result/conclusion] Compared with the state-of-the-art recommendation algorithms, the algorithm proposed in this paper does not only improve the content security significantly, but also slightly improves the performance of precision and other metrics.

Keywords: Ethical review; Risk in content security; Rating matrix; Collaborative filtering; Feature base; Recommendation algorithm

0引言

在人工智能时代,算法推荐正在成为人们获取信息的重要方式,是传统依赖搜索引擎获取信息方式的重要补充,引起了越来越多情报学者的关注,其中所蕴含的安全风险和信息伦理问题是情报学科关注的重要问题。在电商平台中,随着商品种类和数量不断增加,用户借助浏览或检索方式找到符合自身喜好商品的难度越来越大,算法推荐模式应运而生[1-3]。其中,协同过滤推荐算法(Collaborative filtering recommendation,CFR)因具有易于工程实现和推荐结果新颖度高等优势,在商品推荐中得到了广泛应用[4-6],亚马逊(Amazon)、易贝(eBay)、淘宝(Alibaba)、京东(JD)等电商平台相继运用CFR算法来提升产品销量[7]。

CFR算法包括基于模型的算法和基于近邻的算法。基于近邻的算法又可分为基于相似商品的推荐和基于相似用户的推荐两种。基于相似用户的CFR算法可通过分析目标用户的历史消费数据,构建个人兴趣偏好,并基于相似用户的历史消费商品向目标用户推荐可能符合其喜好的商品[8],能够减轻用户的选购负担,但同时也因为可以发现用户的潜在喜好而带来信息伦理风险。

随着推荐算法的运算对象由商品转向用户,其内在的价值属性逐渐显现。强调严守非歧视性、用户非物质性和个人选择不可剥夺性等原则的伦理审查成为推荐领域研究的热点[8-13]。不同于传统优化研究强调推荐算法性能(如Precision精度、Recall召回率等),伦理审查研究更关注算法优化中用户的知情权、选择权和注销权等权利,旨在杜绝算法优化中可能存在的伦理问题。然而,随着电商规模的扩大,平台对商家入驻的要求和对产品上线的审核流程大幅简化,使新增商品中混杂了一些具有安全风险的商品,如违禁物品、国家珍稀保护动物等。由算法推荐具有内容安全风险的商品,不但会给社会风气和平台形象造成恶劣影响,不利于营造安全放心的在线消费环境,而且进一步加剧了用户—商品评分矩阵的稀疏性,影响CFR算法的性能。与用户隐私泄露[14]、算法歧视[15]和过滤气泡[16]等算法伦理问题相比,目前针对内容安全风险管控的CFR算法优化研究存在的主要问题是:①相关研究仍处于起步阶段,多聚焦法律法规或相关政策制定,缺少切实可行的操作方案;②未对内容安全风险商品进行统一可靠的界定,表现形式、特点和分类等尚不清晰;③未建立内容安全风险商品识别的多模态特征库,无法有效发现违法和不良商品并采取相应处置。为此,本文拟针对商品内容安全风险管控前提下推荐算法的优化问题展开研究。[马1]

1 研究现状

面对日益攀升的算法伦理审查压力,2018年,美国纽约市政府颁布《算法问责法》[17],明确要求算法在向消费者提供与关键决策相关的信息时(如向消费者推荐商品等),应最大限度地降低提供此类信息可能带来的商业风险。时隔一年,加拿大政府颁布《自动化决策指令》[18],构建了一套涵盖公平性、透明性和合法性的系统评估框架,为评价包括推荐在内的自动化决策系统对民众或政府机关可能产生的风险提供了重要依据。此外,2020年欧盟颁布的《人工智能白皮书》[19]强调,除了算法(推荐算法等)本身的设计缺陷,数据可用性和质量问题同样是引发各类算法安全风险的重要原因。在我国,推荐算法的内容安全风险管控已被提升到一个全新的高度。如2022年3月1日起实行的《互联网信息服务算法推荐管理规定》[20]明确要求算法推荐服务提供者应当坚持主流价值导向,不得利用算法推荐服务传播法律、行政法规禁止的信息,并应当采取切实措施防范和抵制传播不良信息。值得注意的是,各大电商平台也在积极响应社会各界对于内容安全风险商品的管控要求。2012年,淘宝制定《禁售商品及信息名录》,明确禁止平台商家销售防狼喷雾、吹镖和狩猎弓等高杀伤性管制器具[21]。2017年,亚马逊(Amazon)德国站应德国民众要求,在其电商平台中全面禁售与纳粹有关的一切产品(带有纳粹标志的连帽衫、T恤等)[22]。2018年,淘宝发布《关于虚拟货币类商品规则解读变更公示通知》,明确虚拟货币的生成定义范围,加强对基于区块链技术生成的数字化产品衍生服务(比特币、莱特币等)的管控[23]。2019年,为进一步保护未成年人身心健康,京东将电子烟列入平台禁售商品,并通过先屏蔽再下架的方式陆续加强了平台对电子烟类商品(烟弹、电子烟油等)的管控力度[24]。2021年,易贝制定网站管理的长期政策,组建了一支遍布多个国家或地区的全球专家团队,以加强对平台内容安全风险商品的管控[25]。

面对日益迫切的推荐算法内容安全风险管控需要,研究人员也进行了一些探索性研究。代表性研究有: [马2] Shrestha等[26]指出商品推荐列表中可能含有许多意想不到或错误的结果,推荐服务提供者应基于具有潜在错误结果的代表性案例对推荐进行人工干预,以尽量减少其给平台声誉造成的损害或带来其他风险。李静辉[27]以算法推荐的意识型态风险治理为视角,强调电商平台应强化自身的伦理自律,时刻把好信息关,运用人工审核等方式加大内容安全审核力度,积极传播社会主流价值。梅帅[28]从智能算法推荐的技术特质入手,分析算法可能引发的社会风险,并提出了一套智能算法推荐风险法律规制的路径策略。此外,Abul-Fottouh等[29][z3] [马4] 还指出,算法在推荐有害内容时可能存在一种同质性效应(有害内容越多,其越可能被算法推荐),而对有害内容的“妖魔化”或对推荐算法的其他改变可能有利于降低其可见性。目前,相关研究多聚焦于理论探讨与政策研究,尚未见专门针对基于相似用户的CFR算法内容安全风险管控的实验研究;关于内容安全风险商品的表现形式、特点和分类的界定尚不清晰;尚未建立用于识别内容安全风险的多模态数据特征库,因而难以准确识别违法和不良商品。为此,设计一种可用的优化算法,用于降低基于相似用户的CFR算法内容安全风险。

2 研究方法

2.1 问题陈述

基于相似用户的CFR算法主要包括4个步骤(见图1):①基于历史消费数据构建用户—商品评分矩阵,行代表用户,列代表商品;②分别计算目标用户A与用户B、C和D之间的评分相似度,确定目标用户A的相似用户群(用户C和D);③构建目标用户A的相似度矩阵,并结合相似用户C和D的历史评分对A行缺失评分(如A行中的商品1和商品4)进行预测;④根据A行各商品评分值高低(降序排列),从n个商品中为用户生成长度为ll<<n)的商品推荐列表B(u)。当目标用户A再次打开该电商平台时在“猜你喜欢”模块将B(u)推荐给用户。

图****1 商品推荐中基于相似用户的CFR算法运算过程[l5] [马6]

Fig.1 The process of CFR algorithm based on similar users in product recommendation

如图1所示,用户—商品评分矩阵是CFR算法的数据基础,但是却蕴含着向用户推荐违反伦理审查规范商品的风险。为降低算法推荐内容安全风险,保证优化算法的效用和可操作性,需要考虑3个问题:①

用户—商品评分矩阵的构建方式无法判断哪些商品具有内容安全风险。如研究人员通常仅利用商品ID、用户ID和评分构建矩阵[13],但此种方式并不涉及商品内容(商品标题、商品展示图等);②用户—商品评分矩阵的处理方式无法避免内容安全风险商品参与CFR算法的运算。如研究人员通常采用奇异值分解[30]等算法降低评分矩阵维度,虽然能够较为有效地缓解数据稀疏对CFR算法的影响,但是,内容安全风险商品同其他商品一样参与整个降维过程,并不能降低其在整个评分矩阵中的占比;③从理论上讲,越早发现风险商品越有利于降低CFR算法的内容安全风险。如工业场景中一般在产品上线后(评分矩阵构建前),通过前端人工排查的方式对内容安全风险商品进行管控。但是,此种方法不仅应用难度较大(人力成本高和效率低),而且排查人员的管控尺度也存在一定差异[31]。

2.2研究步骤[马7]

本文以算法构建和实验检验为主,综合利用实地调研、政策文本内容分析等混合方法开展研究[32]。首先,利用实地调研 (3个月)、半结构化访谈 (4名电商平台在职员工)、网站调查 (7个主流电商平台) 和主题分析等方法,对电商平台中内容安全风险商品的定义、外在表现形式和特点进行界定;然后,构建用于识别内容安全风险商品的多模态特征库,并借助深度学习和多模态融合技术,提出一种面向内容安全风险管控的协同过滤推荐算法;最后,通过实验检验了本文优化思路和所提算法的有效性。

6 研究结论与讨论

6.1 研究结论

为了在商品推荐算法中有效管控电商内容安全风险,本文利用深度学习(VGGNet16, HTCBOW)和多模态后期融合技术,将内容安全风险问题纳入用户协同过滤推荐算法的优化过程,提出融合多模态特征的CSCFR算法,实验结果表明CSCFR算法在过滤内容安全风险商品方面的性能优于多个传统算法。鉴于该领域相关研究较少,本文首先通过实地调研、网站调查、访谈和实验等混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定;将内容安全风险商品划分为7个大类(色情低俗、暴恐、军警、政治反动、毒品、民族宗教和违法违规)和22个小类,并依据其风险水平进一步划分为8个严重风险子类和14个一般风险子类。在此基础上,利用图像增强和特征词提取等技术方法构建了一个可用于识别内容安全风险商品的特征库,用于训练面向电商内容安全风险管控的CSCFR算法。最后,通过设计和实施严格的对照实验,证明了CSCFR算法的有效性。

6.2 研究意义

1)理论价值。算法伦理是情报学研究领域的前沿问题,相关文献从信息质量、信息茧房、算法优化、信息安全等视角展开较多研究,但是现有与协同过滤推荐算法CFR优化有关的研究缺少对于内容安全风险管控这一重要信息伦理问题的考察。本文主要贡献:①通过定性与定量相结合的混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了系统界定,为后续识别和处理内容安全风险商品划定了边界。②借助图像增强和特征提取等技术初步构建了一个用于识别内容安全风险商品的多模态特征库。研究人员可在此基础上结合具体应用场景进一步对其进行扩展和复用,为后续识别和处理内容安全风险商品奠定了基础。③提出一种侧重于应对内容安全风险的CSCFR算法,在降低算法内容安全风险的同时,也在一定程度上提升了算法性能,可为以后CFR算法优化研究提供参考。

2)现实意义。本文的成果可为希望改善CFR算法内容安全风险问题的政策制定者和电商推荐服务提供者提供参考,并具有向文献信息推荐、网络信息治理等其他领域迁移的潜力。推荐服务提供者在进行CFR算法的设计与应用时,应结合具体场景,平衡好算法内容安全风险、算法性能和数据稀疏性之间的关系,而不应一味追求算法性能,因为这可能导致更高的内容安全风险。为此,可以根据本研究给出的内容安全风险商品的定义、外在表现形式、特征和分类等,运用CSCFR算法,依次对评分矩阵进行内容安全风险商品的识别与剔除、用户聚类和商品推荐。

3)局限性和未来研究方向。①本文实验数据为定向爬虫在某知名电商平台采集的真实数据,虽然从中随机生成了3个实验数据集并进行3次重复实验,但考虑到电商平台的商品经营类目和目标用户群体等存在差异,本文的主要成果可能在其他电商平台上的实用性有限。因此,未来的研究可能会采集多个电商平台的真实数据,以验证成果的科学性和实用性。②本文用于识别内容安全风险商品的相关算法模型(VGGNet16, HTCBOW等)能够帮助服务推荐商在CFR算法内容安全风险问题上采取切实可行的应对措施,但仍存在优化空间。因此,未来的研究可能会将现有算法替换为性能更优的算法,如将VGGNet16替换为ResNet50,HTCBOW替换为Bert等,以进一步提升内容安全风险商品的识别效果。同时,本文所构建的多模态特征库可在实际使用过程中进行丰富与完善。如增加分类数、扩大数据量等,并可基于线上问卷或线下用户实验方式[45]不定期对算法推荐结果进行评价,及时对特征库和推荐算法进行调整。

参考文献

[1]    Esteban A, Zafra A, Romero C.Helping university students to choose elective courses by using a hybrid multi-criteria recommendation system with genetic optimization[J].Knowledge-Based Systems,2019,194:105385.

[2]    Huang Xiken, Lu Ruqian.An evolving network model with information filtering and mixed attachment mechanisms[J].Physica A: Statistical Mechanics and its Applications,2019,545:123421.

[3]    Tian  Yonghong, Zheng Bing, Wang Yanfang, Zhang Yue, Wu Qi.College library personalized recommendation system based on hybrid recommendation algorithm[J].Procedia CIRP,2019,83:490-494.

[4]    Li Jianjiang, Zhang Kai, Yang Xiaolei, Wei Peng, Wang Jie, Mitra K, Ranjian R.Category preferred canopy–K-means based collaborative filtering algorithm[J].Future Generation Computer Systems,2019,93:1046-1054.

[5]    Jakomin M, Bosnic Z, Curk T.Simultaneous incremental matrix factorization for streaming recommender systems[J].Expert Systems with Applications,2020,160:113685.

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供:

在这里插入图片描述

因篇幅有限,仅展示部分资料

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值