自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【暑期实训】任务记录 2021-7-21

山东大学暑假实训医疗知识图谱第四周记录三目录1.工作内容2.总结1.工作内容将数据处理成实体识别和关系抽取所需的json格式,供算法同学使用。2.总结由于算法需要的数据格式为json格式,故要把爬取到的数据格式更改成json格式爬取出的数据格式如下:经处理后数据格式为:...

2021-07-29 10:55:16 155

原创 【暑期实训】任务记录 2021-7-20

山东大学暑假实训医疗知识图谱第四周记录二目录1.工作内容2.总结1.工作内容对爬取的数据进行统计整理,去除了无效的药品说明书信息。2.总结经统计,从药源网爬取的有效药品说明书共计约9500条,虽然不能利用模板满足数据的动态爬取,但该数据量已经能够满足本项目的基本需要...

2021-07-29 10:51:06 120

原创 【暑期实训】任务记录 2021-7-19

山东大学暑假实训医疗知识图谱第四周记录一目录1.工作内容2.总结1.工作内容将药源网中的绝大部分数据爬取了下来。输出到指定文件当中。2.总结由于爬虫的效率相对较低,执行代码耗费了挺长的时间,好在代码逻辑没有问题,完成了对药源网中数据的爬取。最终得到的数据格式如下:...

2021-07-29 10:46:57 142

原创 【暑期实训】任务记录 2021-7-15

山东大学暑假实训医疗知识图谱第三周记录二目录1.工作内容2.总结1.工作内容继续编写爬虫代码,并对编写好的代码进行调试。2.总结得到地址后,访问该网址,找到class=”yaopinming”将药品名加到数组中。之后根据class=”smsli”获取药品说明书中的其余内容,输出到指定文件中,输出完最后一行加入分隔符,继续爬取下一个药品说明书的数据。在数据爬取过程中,遇到了部分网页地址错误导致的http error,解决方法是遇到相应的错误则跳过该说明书继续爬取下一个说明书的内容。...

2021-07-29 10:42:17 190

原创 【暑期实训】任务记录 2021-7-14

山东大学暑假实训医疗知识图谱第三周记录二目录1.工作内容2.总结1.工作内容根据之前想好的思路编写爬虫代码2.总结网站中共有22个字母分类,通过字符串拼接首先得到第一个字母对应的第一个分页并访问该分页中药中b分类的第一页的网址就是上面这种格式。之后根据id=”sms_page”找到该字母分类下共有多少分页,如上面的分类下共有3个分页。之后开始循环每个分页,提取该分页下的所有药品地址。通过字符串拼接得到每个药品说明书的具体地址。例如补脑丸的地址如下格式:...

2021-07-29 10:35:35 98

原创 【暑期实训】任务记录 2021-7-13

山东大学暑假实训医疗知识图谱第三周记录一目录1.工作内容2.总结1.工作内容根据对网站的解析开始编写爬虫代码2.总结    对网站结构进行解析:该网站中的药品说明书按照首字母分类,共有22个字母,每个字母下有药品说明书的链接,并进行了分页。每个药品说明书链接点进去之后,就是该药品对应药品说明书的具体内容想到先得到每个字母下所有的全部分页数量,再对每个分页进行字符串拼接,最终得到每个药品说明书对应的地址,之后访问该地址对说明书内容进行爬取。...

2021-07-29 10:31:08 128

原创 【暑期实训】任务记录 2021-7-10

山东大学暑假实训医疗知识图谱第二周记录一目录1.工作内容2.总结1.工作内容1.查看了更多的药品网站,比较药品说明书种类的多样性,最终确定要爬取的网站。2.学习并认识了beautifulsoup的具体内容。2.总结    经历过云计算平台配置失败之后,想着既然不能提高运行效率,就尽量提高药品说明书爬取的质量,开始比较各大医药网站中的药品说明书内容,尽量找到更为详尽,结构更加清晰且数量更加庞大的医药网站。最终确定了爬取“药源网”中的中药和化学药的相关药品说明书。&n

2021-07-28 01:32:58 105

原创 【暑期实训】任务记录 2021-7-8

山东大学暑假实训医疗知识图谱第二周记录二目录1.工作内容2.总结1.工作内容配置山大云计算平台python、beautifulsoup及lxml相关版本。2.总结为了解决之前爬虫爬取效率过低的问题,尝试将python代码部署到山大云计算平台上运行,所以先进行了相关环境配置。先将云计算平台现有python2.x版本更新到3.6.但是之后在beautifulsoup环境搭建过程中,出现了由于python版本升级而导致的部分文件不可用的情况,在尝试多方查找进行问题解决的过程中无果,最后放弃了云计算平台的

2021-07-28 01:27:29 103

原创 【暑期实训】任务记录 2021-7-6

山东大学暑假实训医疗知识图谱第二周记录一目录1.工作内容2.总结1.工作内容1.了解了国内现有的药物网站2.查阅了爬虫相关知识,尝试写了关于药源网药品数据爬取的代码,并验证了其正确性2.总结因为可以算是第一次正式接触爬虫,所以先从网上找了相关demo进行学习,配置好了requests、lxml以及beautifulsoup.之后查看了国内现有的药品网站,包括求医问药、药源网等网站,发现药源网中药品分类比较工整,按照首字母排序,所以就尝试爬取药源网的药品说明书数据。现阶段遇到的问题是,因为我的代

2021-07-07 16:16:05 70

原创 【暑期实训】任务记录 2021-7-2

山东大学暑假实训医疗知识图谱第一周记录三目录1.工作内容2.总结1.工作内容查阅了实体抽取,关系抽取等相关算法。观看了相关教学视频。2.总结一开始在想能不能简单的自己抽取实体之间的关系,根据实体所在语义。但后来再看药品说明书的具体内容时发现,药品说明书中描述的很复杂且对关系的边界描述的很模糊,只根据句意抽取联系很困难,所以我们根据已经抽取出的实体自己总结出相关的关系。...

2021-07-06 09:01:13 48

原创 【暑期实训】任务记录 2021-6-30

目录Neo4j学习CQL学习1.CREATE命令Neo4j CQL创建一个没有属性的节点Neo4j CQL创建具有属性的节点2.MATCH命令Neo4j学习CQL学习1.CREATE命令Neo4j CQL创建一个没有属性的节点CREATE命令语法CREATE (<node-name>:<label-name>)“CREATE”命令用于创建没有属性的节点。 它只是创建一个没有任何数据的节点。node-name我们要创建的节点名称label-name

2021-07-01 16:31:11 79

原创 【暑期实训】 任务记录 2021-06-28

山东大学暑假实训医疗知识图谱每周记录

2021-06-28 22:19:55 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除