作为一个零基础的python小白,想用python做点事情实在是难,但是!小强附体的我,打不死的精神使我终于用python实现了自己想要达到的目标!如果你也是刚入门python,刚好我们的目标一致,这篇文章你绝对不能错过!绝对让你一看就懂,一用就会!
用到的软件
pycharm软件,Gephi软件
用到的PYTHON包
os
pandas
tkinter
jieba
PTL
numpy
matplotlib
wordcloud
分词工具、自定义词典选择
本文采用的是结巴(jieba)分词,为了分离出的疾病名称准确,我使用ICD-10疾病编码和清华大学开放中文词库(医学类)(THUOCL),经过两天的吐血整理,终于搞定了本项目所需的疾病自定义词库。
对项目名称进行分词并输出分词后的文件
废话不多说,先上代码,需要根据自己项目修改的地方会有注释,没有注释的地方不要动!不要动!不要动!重要的事情说三遍!
import pandas as pd
import jieba
"""
csv文件读取一列,转为list
"""
def columnOflist(datas, cName):
job_info = datas.loc[:, cName]
job_info = job_info.tolist()
return job_info
"""
对列表数据进行分词操作
返回一个分词后的list
"""
def stripWord(job_info):
"""
停用词表,将自己设置的停用词表改为stopwords.txt即可
"""
stop = open('stopwords.txt', 'r', encoding='utf-8')
stopWord = stop.read().split("\n")
"""
调用新词库,将自己的自定义词典名称改为111.txt,或者将下面的111.txt改为你自己的文件名均可!
这里的自定义词库采用的是清华大学开放中文词库&#