人文社科研究的数字化转型-如何使用数字化的方式进行人文社科研究

人文社科研究的数字化转型-如何使用数字化的方式进行人文社科研究

背景

在互联网时代,都在提倡数字化转型,从企业再到政府单位,如今都已差不多进行了深入的数字化转型,很多行业都经历了从线下到线上的转变。而对于我们普通人来说,更多的互动、社交活动都转移到了线上,也已经经历了一个从主线下到主线上的一个过程。在如今的大数据时代,对于人文社科来讲,**社会科学研究方法正在发生革命性变革。**那么发生了什么变革呢?

1. 拒绝“感性”“假设”,一切靠大数据说话

“大胆假设,小心求证”,一直是我们从事人文社会科学研究的基本模式。但是,随着大数据理论和大数据应用技术的发展和进步,社会科学研究者可以在无假设的情况下,利用有监督学习和无监督学习等方法从海量数据中挖掘有价值的信息、习得新知识,获得情理之中、意料之外的结论。

2. 告别“个别样本”,实现“全数据”分析

人文社科研究以前依赖抽样调查,但最大比例的样本也不可能穷尽对象。随着大数据应用技术的不断提升,研究者可以通过技术手段采集全样本,全面过渡到“全数据”,让你的研究更有说服力。

3. 要“因果”,更要“关联”

因果分析和关联性分析是两个重要研究方法。在传统的社会科学研究中,因果分析是重要的研究方法和常用的研究范式。但是,随着大数据时代的到来,关联性分析显得尤为重要,越来越受到社会科学研究者的青睐和重视。大数据分析,需要透过海量数据,找出不同数据集之间的关联性,抽象出各种强关系模型,发现隐藏在数据背后的新知识、新结论。

4. 无需人工阅读大量材料,一切由计算机帮你搞定

在传统的社会科学研究中,一般需要研究者阅读大量文献材料,再由人工进行大量整理,需要耗费大量时间精力。而在大数据时代,这一切只需要交给计算机处理,同时,计算机还能完成人类所不能完成的任务,如在一分钟内分析一百万条评论数据。

如此可见,在大数据时代,人文社科研究者们,也得学会如何运用大数据技术,来促进人文社科理论的研究,而对于他们来说,想要学会如何运用大数据技术,可不是那么容易的!

以下内容便是讲解一个通用的、易上手的使用数字化的方式进行人文社科研究。

第一步:根据你的研究方向找到相应的数据

现在互联网上有很多平台的数据都是可以拿来做分析用的,常用的:【新闻网站】、【论坛网站】、【微博】、【贴吧】、【知乎】等平台,还有比如说研究党建的可以用【网络问政平台】、【党的建设数据库】以及【政策网站数据】等等;研究马克思的可以用【马克思主义相关著作】,这些可以在【思想理论资源数据库】找到。总而言之,只要是文字数据,都是可以拿来做大数据分析的。

当然,以上所述的数据获取方式有一定难度,有的可能需要单位购买,有的需要数据采集,其获取数据的过程都是比较复杂的。那有没有其他获取数据的方式呢?当然有:

最简单也最实用的获取数据的方式就是直接从一些平台上导出数据,例如:【CNKI中国知网】,这上面的文献数据是可以直接导出为excel的,而且,这上面的数据可以说对于任何一个研究方向来说都是有研究价值的,而且都可以直接拿来做数据分析。

如何从CNKI上导出数据可以参考这篇文章:如何对cnki知网上的论文进行可视化文本分析

如果是对文献数据进行分析的话,还可进行文献计量分析,最简单的方式可以直接使用CNKI上自带的可视化文献计量分析:

img

img

第二步:把准备好的数据导入智分析-文本大数据分析研究平台

  1. 准备好的数据如下图所示:

    image-20210713144543110

    **注意:**excel文件中应至少含有内容列,才能进行文本大数据分析;如果还含有时间列,平台会智能识别出时间列并自动进行趋势分析;如果还还有计数项列(计数项指可以统计计数的项,例如上图中的【评分】),平台也会智能识别并自动进行计数项分析。

  2. 创建项目,并上传数据,智分析平台支持excel、txt格式的文本数据:

    image-20210713145132779

  3. 进入刚才创建的项目,并点击【开始分析】按钮:

    image-20210713145306744

    点击开始分析后系统会自动进行智能分析,分析完成后会跳出如下页面:

    image-20210713145421471

第三步: 调试结果,添加词语到词库

一、把没有实际含义的词语添加至停用词库:

通过上图词云图易发现,很多词语没有实际含义,比如【这个】、【一部】、【一个】、【就是】等词语,因此我们可以去掉它,怎么去掉呢?

第一种方式

直接点开词云图,点击没有实际含义的词语,便可把它添加至停用词库:

image-20210713150058032

image-20210713150120951

第二种方式

也可通过关键词提取功能筛选停用词添加至停用词库:

image-20210713150420033

可能有的用户会觉得这样一个一个找去添加比较麻烦,那有更简单的方法吗?当然有:

第三种方式(最简单)

导入通用停用词库:进入【词库编辑】页面,选择停用词库,点击右边的【词库导入】按钮:

image-20210713152722794

选择【导入领域词库】:

image-20210713152806177

选择【中文停用词库】,点击【确定导入】:

image-20210713152843770

image-20210713152904892

二、 把具有独立含义的新词短语添加至分析词库

有的细心的小伙伴会发现,词云图中有的词语未能表达出独立含义,例如上文中的【速度】,有可能是【速度与激情】,【家族】有可能是【飞车家族】,【联盟】有可能是【复仇者联盟】,因此我们需要把完整的词语,也就是所谓的新词短语添加至分析词库中。

如果有想要理解为什么会出现这样的情况的小伙伴,可以翻阅这篇文章查看:文本分析软件-智分析 SmartAnalyze

使用新词发现功能添加新词短语至【分析词库】

传统方式只能自行手动根据经验添加新词短语至分析词库,工作量特别大。智分析为减少人工工作量,提高效率,特地做了一个新词发现的功能,平台通过算法智能判断列出有可能是新词短语的词语,再由人工挑选,添加至分析词库,采用人工+智能的方式。通过这种方式不断丰富词库,智分析平台的分词将会越准确,因此会有“人工+智能=越用越智能”的说法。

image-20210713160615509

使用词库编辑功能添加词语至分析词库

也可以通过词库编辑功能手动输入新词短语添加至分析词库:

image-20210713160905865

导入领域词库

当然也可以类似停用词库那样导入领域词库:

image-20210713161012392

目前只支持以上几个领域,不断更新中…

三、重新计算

image-20210713162247772

在【查看文件页面】中点击重新计算按钮,即可让词库中的词语生效:

image-20210713162351584

看看现在的结果是不是比刚才好多了:

image-20210713162459640

当然也可能会漏掉一部分词语,参考以上步骤不断丰富词库,再重新计算即可。

第四步:根据文本分析结果,进行文章撰写的思路

文本分析结果一般是表明了某种现象,或者论证了某个观点,得到结果后进行相关阐述即可。智分析SmartAnalyze-文本大数据分析研究平台提供多个功能,目前来说可用于分析结果的主要有:【数据灵感】、【关键词提取】、【词关联性分析】、【主题分析】。一般来说【数据灵感】、【关键词提取】、【主题分析】可用于对文本数据的整体性概括,提供一些整体上的论点,像【词关联性分析】可进行局部的深度解析,具体可以参考:当你用文本分析的方式来阅读《速度与激情9》的500篇豆瓣影评 这篇文章,就是一个先整体后局部的一个案例。

当然,也可以使用里面其中的某个功能的结果进行总结,例如这篇CSSCI期刊的文章 ,只使用了【词关联性分析里的多对多分析】中的【相似多维度图】,来挖掘出五个基本特征及其相互关系。

还有,像深化供给侧结构性改革的主题分布与趋势演变——基于对1080篇报纸文献的文本挖掘这篇文章,主要运用【主题分析】来分析出深化供给侧结构性改革的主题词,再使用【关键词分析】把这些主题特征词的TF-IDF及排名列出,同时用【主题树图】来直观地展示出主题情况,并对各个主题进行总结。最后,使用【主题趋势图】对各个主题进行趋势分析并进行总结,得出相应结论。

平台地址

平台免费也可以使用,不过免费版最大可分析100KB的文件。

通过此链接注册:注册点我,可立得50元无门槛优惠券哦!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值