智能问诊
angus_monroe
百无一用的愤青
展开
-
“智能问诊”项目——数据匹配(1)
之前在这个项目中症状与药品的匹配是另外一个队友做的,我一直没有仔细研究,今天有时间就大概看了一下,在这里总结一下。首先,这个检索过程用到了levenshtein算法,也就是求编辑距离,先来解释一下这个算法的原理:编辑距离定义:编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括:将一个字符替换成另一个原创 2017-11-17 09:40:04 · 1318 阅读 · 6 评论 -
“智能问诊”项目——数据获取(1)
首先确定需求:从“用药参考”上获取药品的名称、适应症等信息保存到本地,为数据处理做准备通过观察可以发现,不同药品的网址存在一定规律,即http://drugs.medlive.cn/drugref/html/2.shtml,“.shtml”前面的数字代表不同药品(按拼音顺序排列?)这里我们把药品的范围限定在西药,经过多次试验可以发现其范围区间为2到14578,也就是说这一万四千多种原创 2017-07-19 21:27:54 · 1457 阅读 · 2 评论 -
“智能问诊”项目——数据处理(1)
经过之前一周的工作,我已经成功的把网站上的数据爬取下来并保存到了数据库中,接下来就要对爬取到的数据进行处理了。首先,由于我们爬取到的数据都是自然语言,比如适应症的描述都是类似于“用于冠动脉粥样硬化心脏病的治疗”这样的,给我们进行搜索和查询带来了不少的困难,所以我们最先要做的就是分词,即将自然语言分解为一个个的词组,然后再经过筛选去除没用的词语,留下有用的作为关键词。分词通常有三种方法,一是原创 2017-07-25 13:32:49 · 2565 阅读 · 1 评论 -
“智能问诊”项目——数据获取(2)
在之前已经实现了将爬取到的信息直接打印出来,但这样是远远不够的,要对数据进行进一步的处理,就要将其存放在数据库中,我的方法是先将数据调整格式后储存在本地的Excel中,然后再由Excel导入数据库。对Excel进行操作主要用到了xlwt模块,官网下载(http://pypi.python.org/pypi/xlwt)。大致使用流程如下:1、导入模块 import原创 2017-07-24 09:32:42 · 979 阅读 · 0 评论 -
“智能问诊”项目——数据处理(2)
这篇博客主要记录项目开发过程中遇到的两个问题第一个问题是由于之前发现Python直接对数据库进行修改时受网络情况影响大,导致效率低下,所以改用本地Excel进行分词以及数据清洗的操作,这样明显比之前的效率高了不少,但是由于电脑本身的性能限制,仍然有些不理想,但已经比原来好很多了之前对Excel进行操作主要用到了xlwt模块,这个模块主要功能是向Excel导入数据,而如果要实现本地分原创 2017-07-28 16:56:48 · 1427 阅读 · 0 评论 -
python_jieba分词的使用
# coding: utf-8# ###jieba特性介绍# 支持三种分词模式:# 精确模式,试图将句子最精确地切开,适合文本分析;# 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;# 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。# 支持繁体分词。# 支持自定义词典。# MIT 授权协议。# ###分词...转载 2017-07-29 14:18:36 · 503 阅读 · 0 评论 -
“智能问诊”项目——机器学习(1)
经过对各种机器学习算法的初步了解,我最终选定了word2vec来实现药品推荐的功能word2vec是word embedding(词向量)的一种浅层神经网络训练方法。word embedding的这一系列的训练方法,都有一个有趣的现象,那就是训练的主要目标居然是获得side effect的词向量,而不是神经网络的预测模型。这是一种Transfer Learning的思想。这种思想非常值得学原创 2017-08-06 19:13:25 · 2202 阅读 · 5 评论 -
“智能问诊”项目——数据获取(3)
用之前获取到的数据对word2vec进行训练时发现得到的模型并不理想,所以为了使模型更加精确,我决定增加数据量继续进行训练要从哪里获取大量的数据就是一个很头疼的事了,我一直没有很好的解决方案,直到昨天另外一个项目组开会时一个学长的方案给了我很大启发这里数据的来源就是百度百科,经过观察很容易发现,百度百科有一个特点,其不同词条前半部分URL是相同的,都是https://baike.baidu原创 2017-08-08 16:44:12 · 1775 阅读 · 0 评论 -
Python中gensim库word2vec的使用
Python中gensim库word2vec的使用:pip install gensim安装好库后,即可导入使用:1、训练模型定义from gensim.models import Word2Vec model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0....原创 2017-08-09 16:23:52 · 19547 阅读 · 4 评论 -
Google Colab免费GPU配置方法
前言因为最近在Mac上跑模型实在是心累,所以就想要找一些免费的云服务器来进行模型训练经了解,Google推出的免费GPU服务器Google Colab(Colaboratory)就很合适Google Colab特征Colaboratory是一个 Google 研究项目,旨在帮助传播机器学习培训和研究成果。它是一个Jupyter Notebook环境,不需要进行任何设置就可以使...原创 2018-03-13 16:57:42 · 9113 阅读 · 3 评论