科研学习 论文解读——面向电商内容安全风险管控的协同过滤推荐算法研究

如何自学黑客&网络安全

黑客零基础入门学习路线&规划

初级黑客
1、网络安全理论知识(2天)
①了解行业相关背景,前景,确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。(非常重要)

2、渗透测试基础(一周)
①渗透测试的流程、分类、标准
②信息收集技术:主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理,利用方法、工具(MSF)、绕过IDS和反病毒侦察
④主机攻防演练:MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础(一周)
①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全(系统入侵排查/系统加固基础)

4、计算机网络基础(一周)
①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析(HTTP、TCP/IP、ARP等)
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御:主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作(2天)
①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透(1周)
①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具:Nmap、BurpSuite、SQLMap、其他(菜刀、漏扫等)
恭喜你,如果学到这里,你基本可以从事一份网络安全相关的工作,比如渗透测试、Web 渗透、安全服务、安全分析等岗位;如果等保模块学的好,还可以从事等保工程师。薪资区间6k-15k

到此为止,大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗?

如果你想要入坑黑客&网络安全,笔者给大家准备了一份:282G全网最全的网络安全资料包评论区留言即可领取!

7、脚本编程(初级/中级/高级)
在网络安全领域。是否具备编程能力是“脚本小子”和真正黑客的本质区别。在实际的渗透测试过程中,面对复杂多变的网络环境,当常用工具不能满足实际需求的时候,往往需要对现有工具进行扩展,或者编写符合我们要求的工具、自动化脚本,这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中,想要高效地使用自制的脚本工具来实现各种目的,更是需要拥有编程能力.

如果你零基础入门,笔者建议选择脚本语言Python/PHP/Go/Java中的一种,对常用库进行编程学习;搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP, IDE强烈推荐Sublime;·Python编程学习,学习内容包含:语法、正则、文件、 网络、多线程等常用库,推荐《Python核心编程》,不要看完;·用Python编写漏洞的exp,然后写一个简单的网络爬虫;·PHP基本语法学习并书写一个简单的博客系统;熟悉MVC架构,并试着学习一个PHP框架或者Python框架 (可选);·了解Bootstrap的布局或者CSS。

8、超级黑客
这部分内容对零基础的同学来说还比较遥远,就不展开细说了,附上学习路线。
img

网络安全工程师企业级学习路线

img
如图片过大被平台压缩导致看不清的话,评论区点赞和评论区留言获取吧。我都会回复的

视频配套资料&国内外网安书籍、文档&工具

当然除了有配套的视频,同时也为大家整理了各种文档和书籍资料&工具,并且已经帮大家分好类了。

img
一些笔者自己买的、其他平台白嫖不到的视频教程。
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

0引言

在人工智能时代,算法推荐正在成为人们获取信息的重要方式,是传统依赖搜索引擎获取信息方式的重要补充,引起了越来越多情报学者的关注,其中所蕴含的安全风险和信息伦理问题是情报学科关注的重要问题。在电商平台中,随着商品种类和数量不断增加,用户借助浏览或检索方式找到符合自身喜好商品的难度越来越大,算法推荐模式应运而生[1-3]。其中,协同过滤推荐算法(Collaborative filtering recommendation,CFR)因具有易于工程实现和推荐结果新颖度高等优势,在商品推荐中得到了广泛应用[4-6],亚马逊(Amazon)、易贝(eBay)、淘宝(Alibaba)、京东(JD)等电商平台相继运用CFR算法来提升产品销量[7]。

CFR算法包括基于模型的算法和基于近邻的算法。基于近邻的算法又可分为基于相似商品的推荐和基于相似用户的推荐两种。基于相似用户的CFR算法可通过分析目标用户的历史消费数据,构建个人兴趣偏好,并基于相似用户的历史消费商品向目标用户推荐可能符合其喜好的商品[8],能够减轻用户的选购负担,但同时也因为可以发现用户的潜在喜好而带来信息伦理风险。

随着推荐算法的运算对象由商品转向用户,其内在的价值属性逐渐显现。强调严守非歧视性、用户非物质性和个人选择不可剥夺性等原则的伦理审查成为推荐领域研究的热点[8-13]。不同于传统优化研究强调推荐算法性能(如Precision精度、Recall召回率等),伦理审查研究更关注算法优化中用户的知情权、选择权和注销权等权利,旨在杜绝算法优化中可能存在的伦理问题。然而,随着电商规模的扩大,平台对商家入驻的要求和对产品上线的审核流程大幅简化,使新增商品中混杂了一些具有安全风险的商品,如违禁物品、国家珍稀保护动物等。由算法推荐具有内容安全风险的商品,不但会给社会风气和平台形象造成恶劣影响,不利于营造安全放心的在线消费环境,而且进一步加剧了用户—商品评分矩阵的稀疏性,影响CFR算法的性能。与用户隐私泄露[14]、算法歧视[15]和过滤气泡[16]等算法伦理问题相比,目前针对内容安全风险管控的CFR算法优化研究存在的主要问题是:①相关研究仍处于起步阶段,多聚焦法律法规或相关政策制定,缺少切实可行的操作方案;②未对内容安全风险商品进行统一可靠的界定,表现形式、特点和分类等尚不清晰;③未建立内容安全风险商品识别的多模态特征库,无法有效发现违法和不良商品并采取相应处置。为此,本文拟针对商品内容安全风险管控前提下推荐算法的优化问题展开研究。[马1]

1 研究现状

面对日益攀升的算法伦理审查压力,2018年,美国纽约市政府颁布《算法问责法》[17],明确要求算法在向消费者提供与关键决策相关的信息时(如向消费者推荐商品等),应最大限度地降低提供此类信息可能带来的商业风险。时隔一年,加拿大政府颁布《自动化决策指令》[18],构建了一套涵盖公平性、透明性和合法性的系统评估框架,为评价包括推荐在内的自动化决策系统对民众或政府机关可能产生的风险提供了重要依据。此外,2020年欧盟颁布的《人工智能白皮书》[19]强调,除了算法(推荐算法等)本身的设计缺陷,数据可用性和质量问题同样是引发各类算法安全风险的重要原因。在我国,推荐算法的内容安全风险管控已被提升到一个全新的高度。如2022年3月1日起实行的《互联网信息服务算法推荐管理规定》[20]明确要求算法推荐服务提供者应当坚持主流价值导向,不得利用算法推荐服务传播法律、行政法规禁止的信息,并应当采取切实措施防范和抵制传播不良信息。值得注意的是,各大电商平台也在积极响应社会各界对于内容安全风险商品的管控要求。2012年,淘宝制定《禁售商品及信息名录》,明确禁止平台商家销售防狼喷雾、吹镖和狩猎弓等高杀伤性管制器具[21]。2017年,亚马逊(Amazon)德国站应德国民众要求,在其电商平台中全面禁售与纳粹有关的一切产品(带有纳粹标志的连帽衫、T恤等)[22]。2018年,淘宝发布《关于虚拟货币类商品规则解读变更公示通知》,明确虚拟货币的生成定义范围,加强对基于区块链技术生成的数字化产品衍生服务(比特币、莱特币等)的管控[23]。2019年,为进一步保护未成年人身心健康,京东将电子烟列入平台禁售商品,并通过先屏蔽再下架的方式陆续加强了平台对电子烟类商品(烟弹、电子烟油等)的管控力度[24]。2021年,易贝制定网站管理的长期政策,组建了一支遍布多个国家或地区的全球专家团队,以加强对平台内容安全风险商品的管控[25]。

面对日益迫切的推荐算法内容安全风险管控需要,研究人员也进行了一些探索性研究。代表性研究有: [马2] Shrestha等[26]指出商品推荐列表中可能含有许多意想不到或错误的结果,推荐服务提供者应基于具有潜在错误结果的代表性案例对推荐进行人工干预,以尽量减少其给平台声誉造成的损害或带来其他风险。李静辉[27]以算法推荐的意识型态风险治理为视角,强调电商平台应强化自身的伦理自律,时刻把好信息关,运用人工审核等方式加大内容安全审核力度,积极传播社会主流价值。梅帅[28]从智能算法推荐的技术特质入手,分析算法可能引发的社会风险,并提出了一套智能算法推荐风险法律规制的路径策略。此外,Abul-Fottouh等[29][z3] [马4] 还指出,算法在推荐有害内容时可能存在一种同质性效应(有害内容越多,其越可能被算法推荐),而对有害内容的“妖魔化”或对推荐算法的其他改变可能有利于降低其可见性。目前,相关研究多聚焦于理论探讨与政策研究,尚未见专门针对基于相似用户的CFR算法内容安全风险管控的实验研究;关于内容安全风险商品的表现形式、特点和分类的界定尚不清晰;尚未建立用于识别内容安全风险的多模态数据特征库,因而难以准确识别违法和不良商品。为此,设计一种可用的优化算法,用于降低基于相似用户的CFR算法内容安全风险。

2 研究方法

2.1 问题陈述

基于相似用户的CFR算法主要包括4个步骤(见图1):①基于历史消费数据构建用户—商品评分矩阵,行代表用户,列代表商品;②分别计算目标用户A与用户B、C和D之间的评分相似度,确定目标用户A的相似用户群(用户C和D);③构建目标用户A的相似度矩阵,并结合相似用户C和D的历史评分对A行缺失评分(如A行中的商品1和商品4)进行预测;④根据A行各商品评分值高低(降序排列),从n个商品中为用户生成长度为ll<<n)的商品推荐列表B(u)。当目标用户A再次打开该电商平台时在“猜你喜欢”模块将B(u)推荐给用户。

图****1 商品推荐中基于相似用户的CFR算法运算过程[l5] [马6]

Fig.1 The process of CFR algorithm based on similar users in product recommendation

如图1所示,用户—商品评分矩阵是CFR算法的数据基础,但是却蕴含着向用户推荐违反伦理审查规范商品的风险。为降低算法推荐内容安全风险,保证优化算法的效用和可操作性,需要考虑3个问题:①

用户—商品评分矩阵的构建方式无法判断哪些商品具有内容安全风险。如研究人员通常仅利用商品ID、用户ID和评分构建矩阵[13],但此种方式并不涉及商品内容(商品标题、商品展示图等);②用户—商品评分矩阵的处理方式无法避免内容安全风险商品参与CFR算法的运算。如研究人员通常采用奇异值分解[30]等算法降低评分矩阵维度,虽然能够较为有效地缓解数据稀疏对CFR算法的影响,但是,内容安全风险商品同其他商品一样参与整个降维过程,并不能降低其在整个评分矩阵中的占比;③从理论上讲,越早发现风险商品越有利于降低CFR算法的内容安全风险。如工业场景中一般在产品上线后(评分矩阵构建前),通过前端人工排查的方式对内容安全风险商品进行管控。但是,此种方法不仅应用难度较大(人力成本高和效率低),而且排查人员的管控尺度也存在一定差异[31]。

2.2研究步骤[马7]

本文以算法构建和实验检验为主,综合利用实地调研、政策文本内容分析等混合方法开展研究[32]。首先,利用实地调研 (3个月)、半结构化访谈 (4名电商平台在职员工)、网站调查 (7个主流电商平台) 和主题分析等方法,对电商平台中内容安全风险商品的定义、外在表现形式和特点进行界定;然后,构建用于识别内容安全风险商品的多模态特征库,并借助深度学习和多模态融合技术,提出一种面向内容安全风险管控的协同过滤推荐算法;最后,通过实验检验了本文优化思路和所提算法的有效性。

6 研究结论与讨论

6.1 研究结论

为了在商品推荐算法中有效管控电商内容安全风险,本文利用深度学习(VGGNet16, HTCBOW)和多模态后期融合技术,将内容安全风险问题纳入用户协同过滤推荐算法的优化过程,提出融合多模态特征的CSCFR算法,实验结果表明CSCFR算法在过滤内容安全风险商品方面的性能优于多个传统算法。鉴于该领域相关研究较少,本文首先通过实地调研、网站调查、访谈和实验等混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定;将内容安全风险商品划分为7个大类(色情低俗、暴恐、军警、政治反动、毒品、民族宗教和违法违规)和22个小类,并依据其风险水平进一步划分为8个严重风险子类和14个一般风险子类。在此基础上,利用图像增强和特征词提取等技术方法构建了一个可用于识别内容安全风险商品的特征库,用于训练面向电商内容安全风险管控的CSCFR算法。最后,通过设计和实施严格的对照实验,证明了CSCFR算法的有效性。

6.2 研究意义

1)理论价值。算法伦理是情报学研究领域的前沿问题,相关文献从信息质量、信息茧房、算法优化、信息安全等视角展开较多研究,但是现有与协同过滤推荐算法CFR优化有关的研究缺少对于内容安全风险管控这一重要信息伦理问题的考察。本文主要贡献:①通过定性与定量相结合的混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了系统界定,为后续识别和处理内容安全风险商品划定了边界。②借助图像增强和特征提取等技术初步构建了一个用于识别内容安全风险商品的多模态特征库。研究人员可在此基础上结合具体应用场景进一步对其进行扩展和复用,为后续识别和处理内容安全风险商品奠定了基础。③提出一种侧重于应对内容安全风险的CSCFR算法,在降低算法内容安全风险的同时,也在一定程度上提升了算法性能,可为以后CFR算法优化研究提供参考。

2)现实意义。本文的成果可为希望改善CFR算法内容安全风险问题的政策制定者和电商推荐服务提供者提供参考,并具有向文献信息推荐、网络信息治理等其他领域迁移的潜力。推荐服务提供者在进行CFR算法的设计与应用时,应结合具体场景,平衡好算法内容安全风险、算法性能和数据稀疏性之间的关系,而不应一味追求算法性能,因为这可能导致更高的内容安全风险。为此,可以根据本研究给出的内容安全风险商品的定义、外在表现形式、特征和分类等,运用CSCFR算法,依次对评分矩阵进行内容安全风险商品的识别与剔除、用户聚类和商品推荐。

3)局限性和未来研究方向。①本文实验数据为定向爬虫在某知名电商平台采集的真实数据,虽然从中随机生成了3个实验数据集并进行3次重复实验,但考虑到电商平台的商品经营类目和目标用户群体等存在差异,本文的主要成果可能在其他电商平台上的实用性有限。因此,未来的研究可能会采集多个电商平台的真实数据,以验证成果的科学性和实用性。②本文用于识别内容安全风险商品的相关算法模型(VGGNet16, HTCBOW等)能够帮助服务推荐商在CFR算法内容安全风险问题上采取切实可行的应对措施,但仍存在优化空间。因此,未来的研究可能会将现有算法替换为性能更优的算法,如将VGGNet16替换为ResNet50,HTCBOW替换为Bert等,以进一步提升内容安全风险商品的识别效果。同时,本文所构建的多模态特征库可在实际使用过程中进行丰富与完善。如增加分类数、扩大数据量等,并可基于线上问卷或线下用户实验方式[45]不定期对算法推荐结果进行评价,及时对特征库和推荐算法进行调整。

参考文献

[1]    Esteban A, Zafra A, Romero C.Helping university students to choose elective courses by using a hybrid multi-criteria recommendation system with genetic optimization[J].Knowledge-Based Systems,2019,194:105385.

[2]    Huang Xiken, Lu Ruqian.An evolving network model with information filtering and mixed attachment mechanisms[J].Physica A: Statistical Mechanics and its Applications,2019,545:123421.

[3]    Tian  Yonghong, Zheng Bing, Wang Yanfang, Zhang Yue, Wu Qi.College library personalized recommendation system based on hybrid recommendation algorithm[J].Procedia CIRP,2019,83:490-494.

[4]    Li Jianjiang, Zhang Kai, Yang Xiaolei, Wei Peng, Wang Jie, Mitra K, Ranjian R.Category preferred canopy–K-means based collaborative filtering algorithm[J].Future Generation Computer Systems,2019,93:1046-1054.

[5]    Jakomin M, Bosnic Z, Curk T.Simultaneous incremental matrix factorization for streaming recommender systems[J].Expert Systems with Applications,2020,160:113685.

[6]    Billsus D, Pazzani M J. Learning collaborative information filters[A]. Proceedings of the Icml[C]. Wisconsin: AAAI-98, 1998:46-54.

[7]    Afoudi Y, Lazaar M, Al Achhab M. Hybrid recommendation system combined content-based filtering and collaborative prediction using artificial neural network[J].Simulation Modelling Practice and Theory,2021,113:102375.

[8]    王红霞, 陈健, 程艳芬.采用评论挖掘修正用户评分的改进协同过滤算法[J].浙江大学学报(工学版),2019,53(3):522-532.

[9]    Hammou B, Lahcen A, Mouline S. An effective distributed predictive model with Matrix factorization and random forest for Big Data recommendation systems[J].Expert Systems with Applications,2019,137:253-265.

[10] Li Kangkang, Zhou Xiuze, Lin Fan, Zeng Wenhua, Wang Beizhan, Alterovitz G.Sparse online collaborative filtering with dynamic regularization[J].Information Sciences,2019,505:535-548.

[11]  Zhao Yaodong, Cai Shimin, Tang Ming, Shang Minsheng.Coarse cluster enhancing collaborative recommendation for social network systems[J].Physica A: Statistical Mechanics and its Applications,2017,483:209-218.

[12] Feng Yong, Han Xiaolong, Fu Chenping, Wang Rongbing, Xu Hongyan.Commodity recommendation method integrating user trust and brand recognition[J].Journal of Computer Applications,2018,38(10):2886-2891.

[13] Zhang Xiaofeng, Liu Huijie, Chen Xiaoyun, Zhong Jingbin, Wang Di.A novel hybrid deep recommendation system to differentiate user’s preference and item’s attractiveness[J].Information Sciences,2020,519:306-316.

[14] Badsha S, Yi X, Khalil I, et al. Privacy preserving user-based recommender system[A]. Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS)[C]. IEEE, 2017:10174-1083.

[15]        Melchiorre A B, Rekabsaz N, Parada-Cabaleiro E, et al. Investigating gender fairness of recommendation algorithms in the music domain[J].Information Processing & Management,2021,58(5):102666.

[16] Symeonidis P, Coba L, Zanker M.Counteracting the filter bubble in recommender systems: novelty-aware matrix factorization[J].Intelligenza Artificiale,2019,13(1):37-47.

[17] Sattes S O T U.Algorithmic Accountability Act[EB/OL]. [2022-03-03].https://www.wyden.senate.gov/.

一、网安学习成长路线图

网安所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

二、网安视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

三、精品网安学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述

四、网络安全源码合集+工具包

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

五、网络安全面试题

最后就是大家最关心的网络安全面试题板块
在这里插入图片描述在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 12
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值