社保领域知识图谱构建练手小实验（1）——数据预处理

最新推荐文章于 2024-05-20 18:49:14 发布

Seal_Wings

最新推荐文章于 2024-05-20 18:49:14 发布

阅读量800

点赞数

分类专栏： python 自然语言处理数据清洗

本文链接：https://blog.csdn.net/Seal_Wings/article/details/105082381

版权

本文档介绍了在社保领域知识图谱构建过程中进行数据预处理的实践。作者使用从CiteSpace下载的1762篇文献结构化数据，首先通过Python提取摘要，然后在Word中替换特定字符。后续步骤包括去除噪声，如转换英文为小写，删除标点、空格和乱码。由于hanlp安装问题，作者转向使用结巴分词和词性标注进行初步处理。

摘要由CSDN通过智能技术生成

练手数据

使用先前做养老服务文献计量相关实验时为CiteSpace所下载的结构化的数据，原始数据为纯文本。
（原始数据可以通过下面的链接自取，其中包含1762篇文献的结构化数据。）
链接：https://pan.baidu.com/s/1IzP5VLAlz3h82kD0BZXU5Q
提取码：ywbx
复制这段内容后打开百度网盘手机App，操作更方便哦

数据预处理

1、用Python编程提取出其中的摘要部分。

"""
抽取出download_9920.txt文件中所有文献的摘要部分
并按行显示在文件data_9920_abstract.txt中
"""

fi = open("D:/textAnalysis/project/knowledgeMapping/download_9920.txt","r",encoding="utf-8")
fo = open("D:/textAnalysis/project/knowledgeMapping/data_9920_abstract.txt","w",encoding="utf-8")

wflag =False                #写标记
newline = []                #创建一个新的列表

for line in fi :            #按行读入文件，此时line的type是str
    if "AB" not in line:
        wflag = False
    if "AB" in line:     #检验是否到了要写入的内容
        wflag = True
    if wflag == True:
        K = list

最低0.47元/天解锁文章

Seal_Wings

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
社保领域知识图谱构建练手小实验（1）——数据预处理

练手数据使用先前做文献计量学相关实验时为CiteSpace所下载的结构化的数据，原始数据为纯文本。（原始数据可以通过下面的链接自取）链接：https://pan.baidu.com/s/1IzP5VLAlz3h82kD0BZXU5Q提取码：ywbx复制这段内容后打开百度网盘手机App，操作更方便哦数据预处理1、用Python编程提取出其中的摘要部分。"""抽取出download_...
复制链接

扫一扫

专栏目录