疾病共现网络图绘制

ccyufeng

已于 2024-11-09 11:26:34 修改

阅读量485

点赞数 5

分类专栏：热点分析文本挖掘文章标签： python 笔记经验分享

于 2024-11-09 11:21:00 首次发布

本文链接：https://blog.csdn.net/ccyufeng/article/details/143630317

版权

作为一个零基础的python小白，想用python做点事情实在是难，但是！小强附体的我，打不死的精神使我终于用python实现了自己想要达到的目标！如果你也是刚入门python，刚好我们的目标一致，这篇文章你绝对不能错过！绝对让你一看就懂，一用就会！

用到的软件

pycharm软件，Gephi软件

用到的PYTHON包

os
pandas
tkinter
jieba
PTL
numpy
matplotlib
wordcloud

分词工具、自定义词典选择

本文采用的是结巴（jieba）分词，为了分离出的疾病名称准确，我使用ICD-10疾病编码和清华大学开放中文词库（医学类）（THUOCL），经过两天的吐血整理，终于搞定了本项目所需的疾病自定义词库。

对项目名称进行分词并输出分词后的文件

废话不多说，先上代码，需要根据自己项目修改的地方会有注释，没有注释的地方不要动！不要动！不要动！重要的事情说三遍！

import pandas as pd
import jieba

"""
csv文件读取一列,转为list
"""
def columnOflist(datas, cName):
    job_info = datas.loc[:, cName]
    job_info = job_info.tolist()
    return job_info
"""
对列表数据进行分词操作
返回一个分词后的list
"""


def stripWord(job_info):
    """
    停用词表，将自己设置的停用词表改为stopwords.txt即可
    """
    stop = open('stopwords.txt', 'r', encoding='utf-8')
    stopWord = stop.read().split("\n")
    """
    调用新词库，将自己的自定义词典名称改为111.txt，或者将下面的111.txt改为你自己的文件名均可！
    这里的自定义词库采用的是清华大学开放中文词库&#

最低0.47元/天解锁文章