知识单元地理数据可视化(作者研究机构点数据和作者所在国家区域面数据)
知识单元地理数据可视化
地理数据包含了地理点数据和地理面数据。在文献中,地理面数据表示作者的国家或者区域,地理点数据表示具体的地址,即作者的研究机构所在的地方。
1.1 地理面数据可视化
重新读入数据,显示前两行,由于字段过多,要找的位置信息字段被省略。为了方便查找作者所在的位置信息,可以通过遍历行和行标题,借助输出提示,找到地址对应的字段名称。
确定地理信息所在的字段后,从元素中提取出想要的信息。文献作者中会存在多人的现象,书中采用通讯作者所在的地址作为地理信息进行数据提取。通过输出结果,发现国家或者地区都是在指定字段元素的最后面,但是也要考虑到该字段有空值的情况。
因此,需要先判断字段中是否存在缺失值,如果不存在就进行数据提取,将字符串数据按照逗号进行分割,截取最后一项,否则就保持默认空值。进一步确定空值数量,确保不影响整体,否则缺失值量过大,说明按照此种方式提取地理信息方式不妥,需要更换提取策略。输出结果有56个缺失,占到总体文献数量的0.