《数理统计与管理》文本分析用于政务热线的行业文本分类、词频-逆文档频率(TF-IDF)算法、年报MD&A语调、LDA主题模型、股评文本情绪指数、扶贫产品的消费者在线评论文本情感分析
官国宇,杨皓翔,王运豪,等.基于误分类修正的朴素贝叶斯分类器及其在政务热线行业分类中的应用[J/OL].数理统计与管理:1-12[2024-04-23].https://doi.org/10.13860/j.cnki.sltj.20231215-001.
【摘要】传统统计分类方法应用于政务热线行业文本分类问题时存在一定系统性偏差。为了修正系统性偏差,进而减少由误分类导致的额外人力和时间成本,本文将朴素贝叶斯模型作为基准分类器,在最大后验概率判别准则中引入修正系数,并基于验证集上的误分类结果对修正系数进行学习,将其应用于政务热线的行业文本分类中。实证结果表明,修正后分类器的分类精确度比基准分类器提升了至少1个百分点,使误分类样本量减少了4个百分点。由于政务热线的文本工单数量庞大,故该方法对提升行政服务效率,降低人力资源成本具有积极意义。
【关键词】朴素贝叶斯;政务热线;文本分类;修正系数;
王晗,宋贽.在线投诉文本驱动的汽车质量监控方法研究[J/OL].数理统计与管理:1-11[2024-04-23].https://doi.org/10.13860/j.cnki.sltj.20231130-001.
【摘要】汽车质量是汽车企业的核心竞争力,随着互联网的发展,在线用户投诉文本蕴含着大量可挖掘的信息,能够及时有效地反映汽车的质量问题,可以利用其进行汽车质量监控及早期预警,降低企业的召回成本和声誉损失。本文应用Python爬取车质网(全国汽车消费者投诉受理处置服务平台)中的用户投诉数据并处理,融合词频-逆文档频率(TF-IDF)算法、关联规则和专家经验挖掘汽车质量缺陷主题。以汽车月销售量为协变量建立零膨胀泊松回归模型。应用基于Van der Waerden和Klotz检验的Lepage型统计量构建非参数残差控制图对提取的缺陷主题频数进行检测和预警,从而实现对于汽车质量的动态监控。最后以华晨宝马汽车为应用场景,使用本文提出的方法,针对2010-2021年宝马3系在线投诉进行分析和监控,验证了本文方法的可行性与有效性,为汽车企业改进汽车质量提供建议和参考,优化质量管理过程。
【关键词】汽车质量;在线投诉;关联规则;零膨胀泊松回归;非参数控制图;
鲁万波,曾攀,亢晶浩,等.管理层的讨论与分析语调对企业未来业绩表现的影响研究[J].数理统计与管理,2023,42(03):391-402.DOI:10.13860/j.cnki.sltj.20220616-003.
【摘要】本文选择年报披露中管理层的讨论与分析(Management’s Discussion and Analysis,MD&A)作为研究对象,以其语调为文本特征,提出年报MD&A语调与公司未来业绩表现相关性分析的假设,在实证分析中,选择我国2007年至2017年间A股上市公司逾20000份年报的MD&A文本数据,运用字典法构建财经领域的专用情感词典,并使用异质性面板回归模型分73个证监会二级行业深入探讨了年报MD&A语调对公司未来业绩的影响机制和相关关系。研究发现,整体来看年报MD&A语调对企业未来业绩表现存在很强的影响,即年报MD&A语调对公司未来经营状况具有信息增量作用,分行业来看,这种信息增量作用不仅显著存在,而且各行业的大小存在差异,即年报MD&A语调的信息增量具有异质性;同时,语调信息量的多少受公司信息不对称的影响,即信息不对称程度在年报MD&A语调与企业未来业绩表现之间发挥了调节效应,信息对外越不透明的公司,普遍来说其年报语调信息量越大。
【关键词】管理层讨论与分析语调;情感词典;信息增量;异质性;
朱建平,冯冲,吴小龙.主流媒体舆情与流向图的应用研究——基于医疗卫生应急管理全过程的综合评价[J].数理统计与管理,2022,41(04):571-586.DOI:10.13860/j.cnki.sltj.20220616-001.
【摘要】新冠肺炎是我国医疗卫生应急管理体系前所未有的压力测试。本文将2019年12月至2020年3月我国主流媒体舆情作为重要社会治理资源,利用LDA主题模型分层解构应急管理过程,继而结合流向图和TOPSIS法,实现对我国医疗卫生应急管理全过程的综合评价。研究发现:(1)我国医疗卫生应急管理过程由监测与预警、应急处置与救援和事后恢复与重建三维度,及十五项关键应急管理环节构成;(2)社会各群体最为关注突发公共卫生事件的事后恢复与重建,其次分别为监测与预警和应急处置与救援;(3)事后恢复与重建维度下各环节综合评价指数要显著高于其它维度,其中“社会保障”综合评价指数最高,而“服务保障”综合评价指数相对较低;(4)监测与预警仍是我国医疗卫生应急管理的短板,社会各群体对“检疫救援”和“数据收集”环节的认可程度较低。基于系统视角和群体智慧对我国医疗卫生应急管理全过程的综合评价,为其补短板和应急管理过程优化提供了参考。
【关键词】新冠肺炎;医疗卫生应急管理;流向图;综合评价;文本挖掘;
黄雨婷,宋泽芳,李元.基于文本挖掘的股评情绪效应分析[J].数理统计与管理,2023,42(02):229-242.DOI:10.13860/j.cnki.sltj.20211130-010.
【摘要】结合TF-IDF、Word2vec等文本挖掘方法构建了股市情感词典。基于情感词典,采用SVM方法对股评文本进行分类后构建了文本情绪指数。然后应用所构建的文本情绪指数对股市效应进行了实证研究。实证结果表明,投资者情绪对股票收益率具有短期正向预测作用和长期负向预测作用,其影响具有持续性和潜伏性。
【关键词】情感词典;投资者情绪;文本挖掘;
殷彤,于力超,鲍伟.精准扶贫背景下电商扶贫产品消费者满意度及其影响因素研究[J].数理统计与管理,2022,41(04):599-609.DOI:10.13860/j.cnki.sltj.20210722-015.
【摘要】近年来,中国对于弱势群体的扶贫机制在逐步完善,逐步由财政补贴和实物救济等直接扶贫方式过渡为开发式的扶贫方式,根据当地资源和条件,充分发挥区域优势,为弱势群体创收。随着互联网的蓬勃发展,电商扶贫已经成为了扶贫工作的一个有效途径。研究电商扶贫产品的消费者满意度及其影响因素,对推动电商扶贫产业的发展具有重要意义。本文首先使用python软件在京东购物平台爬取了扶贫产品的消费者在线评论文本,并对这些文本进行了情感分析,进而结合服务质量理论和消费者满意度理论,建立了电商扶贫产品消费者满意度结构方程模型,对影响消费者满意度的因素进行了实证研究,结果表明“物流服务”、“商家服务”、“产品品质”和“销售平台”对购买扶贫类产品消费者的满意度都有不同程度的正向影响,其中“物流服务”对消费者满意度影响最大。
【关键词】电商扶贫;文本挖掘;消费者满意度;结构方程模型;