顶刊《系统工程学报》文本分析技术最新进展总结盘点

《系统工程学报》文本分析主要为增量信息挖掘、纳入文档协变量的结构化主题模型、基于Paragraph Vector的K-Nearest Neighbors分类方法、在线评论词向量表征、隐含狄利克雷分配模型。

江俊毅,蒋洪迅.险境淘金:基于并购重组事件挖掘的财务脱困预测[J].系统工程学报,2022,37(02):161-177.DOI:10.13383/j.cnki.jse.2022.02.002.

【摘要】针对我国上市企业财务困境预测问题,构造了一个多分类器集成学习模型,挖掘企业并购重组事件(mergers and acquisitions, M&A)以及年报中管理层讨论与分析(management discussion and analysis, MD&A),应用文本分析技术研究其能否提供增量信息,以及新特征的信息价值.研究结果表明,新模型在预测准确度(area under curve, AUC)与识别能力(true positive rate, TPR)上均显著优于基准模型;企业财务数据、M&A, MD&A等的多源异构特征,都帮助该模型获得更佳的预测效果;基于MD&A的文本情感挖掘发现,管理层语调越消极悲观,其企业越易于陷入财务困境;频繁发生M&A事件更易使企业趋于陷入财务困境; MD&A中语调夸大将不利于模型预测的准确性,但大规模M&A会削弱这种消极作用.

【关键词】财务困境;预测模型;管理层讨论与分析;并购重组

吴俊,欧阳书凡,李晓华.基于STM和格兰杰因果分析的网络新闻媒体倾向研究[J].系统工程学报,2020,35(04):446-458.DOI:10.13383/j.cnki.jse.2020.04.002.

【摘要】网络媒体报道倾向对互联网新闻舆情热点传播及公众认知有着重要影响.为揭示互联网媒体在新闻报道中存在语义和传播倾向,采用纳入文档协变量的结构化主题模型量化不同媒体报道热点主题的语义强度,同时结合格兰杰因果分析检验不同媒体对热点主题时间序列的影响.研究结果表明, 5家互联网媒体在报道共享单车热点新闻时,存在主题选择及传播倾向性.表现在与用户关系密切的话题,媒体间存在跟风造势的倾向,与用户关联不大的话题,媒体间则较少传播或单向传播.提出的融合结构化主题模型的格兰杰因果分析方法为测度网络舆情主体对网络舆情事件的演化影响提供了新手段.

【关键词】结构化主题模型;格兰杰因果分析;共享单车新闻;媒体倾向;

徐选华,王麟麟,陈晓红.公众关注主题下的大群体风险性应急决策方法[J].系统工程学报,2019,34(04):511-525.DOI:10.13383/j.cnki.jse.2019.04.007.

【摘要】公众对突发事件的关注主题可为应急决策提供重要参考.针对社交媒体大数据环境下的应急决策问题,挖掘公众对特大突发事件的关注主题,将其纳入决策准则;在此基础上,考虑专家大群体风险偏好信息的表达与融合问题,将D数理论引入包含风险偏好信息的非均衡语言环境中,定义了非均衡语言D数,并进一步设计了D数扩展的非均衡语言偏好关系(D-ALPR).然后,通过非均衡语D数融合方法获得最优决策方案.最后,以天津爆炸事件为例验证了所提方法的可行性,为社交媒体大数据环境下的应急决策问题提供科学有效的支持.

【关键词】公众关注主题;大数据;大群体;风险偏好;应急决策;

陈进东,唐锡晋,周晓纪,等.网络异源数据社会风险预估及有效性分析[J].系统工程学报,2019,34(03):312-323+432.DOI:10.13383/j.cnki.jse.2019.03.003.

【摘要】针对互联网中异源数据的风险预估问题,借鉴社会心理学中社会风险研究成果,提出基于深度学习模型Paragraph Vector的风险分类和风险预估方法.选择"天涯社区"的"天涯杂谈"和"百姓声音"子板块为例,通过话题分析和相似度比较说明了不同子版块之间社会风险分类的可行性;利用基于Paragraph Vector的K-Nearest Neighbors分类方法(KNN-PV),以"天涯杂谈"标注数据为训练集,实现"百姓声音"相同时间段新发帖的风险分类和风险预估,并通过人工标注结果验证了KNN-PV方法的有效性.研究结果表明,基于机器学习方法能够实现互联网中异源数据的风险分类和风险预估.

【关键词】天涯社区;社会风险预估;异源数据;多分类;Paragraph Vector;

李良强,袁华,叶开,等.基于在线评论词向量表征的产品属性提取[J].系统工程学报,2018,33(05):687-697.DOI:10.13383/j.cnki.jse.2018.05.011.

【摘要】在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义.

【关键词】在线评论;特征抽取;属性归类;词向量;聚类;

刘晓君,那日萨,崔雪莲.基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用[J].系统工程学报,2017,32(03):305-312.DOI:10.13383/j.cnki.jse.2017.03.002.

【摘要】为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂网络的拓扑特性进行分析.研究表明,相同产品相同规模的评论网络统计特性相近;而相同平台上同一产品不同规模的评论网络性质差异明显,即小规模评论(产品销售初期)构成的网络是一个无标度网络,大规模评论(产品销售中后期)构成的网络演化为一个度分布为钟形分布的小世界网络.揭示了消费者发表在线评论行为之间相互作用,会影响整体评论网络的拓扑性质和演化规律,并为市场营销和管理实践提出了指导性建议.

【关键词】在线评论;隐含狄利克雷分配模型;复杂网络;皮尔森相似度;度分布;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值