xhjhggybz-CSDN博客

原创【暑期实训】任务记录 2021-7-21

山东大学暑假实训医疗知识图谱第四周记录三目录1.工作内容2.总结1.工作内容将数据处理成实体识别和关系抽取所需的json格式，供算法同学使用。2.总结由于算法需要的数据格式为json格式，故要把爬取到的数据格式更改成json格式爬取出的数据格式如下：经处理后数据格式为：...

2021-07-29 10:55:16 155

原创【暑期实训】任务记录 2021-7-20

山东大学暑假实训医疗知识图谱第四周记录二目录1.工作内容2.总结1.工作内容对爬取的数据进行统计整理，去除了无效的药品说明书信息。2.总结经统计，从药源网爬取的有效药品说明书共计约9500条，虽然不能利用模板满足数据的动态爬取，但该数据量已经能够满足本项目的基本需要...

2021-07-29 10:51:06 120

原创【暑期实训】任务记录 2021-7-19

山东大学暑假实训医疗知识图谱第四周记录一目录1.工作内容2.总结1.工作内容将药源网中的绝大部分数据爬取了下来。输出到指定文件当中。2.总结由于爬虫的效率相对较低，执行代码耗费了挺长的时间，好在代码逻辑没有问题，完成了对药源网中数据的爬取。最终得到的数据格式如下：...

2021-07-29 10:46:57 142

山东大学暑假实训医疗知识图谱第三周记录二目录1.工作内容2.总结1.工作内容继续编写爬虫代码，并对编写好的代码进行调试。2.总结得到地址后，访问该网址，找到class=”yaopinming”将药品名加到数组中。之后根据class=”smsli”获取药品说明书中的其余内容，输出到指定文件中，输出完最后一行加入分隔符，继续爬取下一个药品说明书的数据。在数据爬取过程中，遇到了部分网页地址错误导致的http error,解决方法是遇到相应的错误则跳过该说明书继续爬取下一个说明书的内容。...

2021-07-29 10:42:17 190

原创【暑期实训】任务记录 2021-7-14

山东大学暑假实训医疗知识图谱第三周记录二目录1.工作内容2.总结1.工作内容根据之前想好的思路编写爬虫代码2.总结网站中共有22个字母分类，通过字符串拼接首先得到第一个字母对应的第一个分页并访问该分页中药中b分类的第一页的网址就是上面这种格式。之后根据id=”sms_page”找到该字母分类下共有多少分页，如上面的分类下共有3个分页。之后开始循环每个分页，提取该分页下的所有药品地址。通过字符串拼接得到每个药品说明书的具体地址。例如补脑丸的地址如下格式：...

2021-07-29 10:35:35 98

原创【暑期实训】任务记录 2021-7-13

山东大学暑假实训医疗知识图谱第三周记录一目录1.工作内容2.总结1.工作内容根据对网站的解析开始编写爬虫代码2.总结对网站结构进行解析：该网站中的药品说明书按照首字母分类，共有22个字母，每个字母下有药品说明书的链接，并进行了分页。每个药品说明书链接点进去之后，就是该药品对应药品说明书的具体内容想到先得到每个字母下所有的全部分页数量，再对每个分页进行字符串拼接，最终得到每个药品说明书对应的地址，之后访问该地址对说明书内容进行爬取。...

2021-07-29 10:31:08 128

原创【暑期实训】任务记录 2021-7-10

山东大学暑假实训医疗知识图谱第二周记录一目录1.工作内容2.总结1.工作内容1.查看了更多的药品网站，比较药品说明书种类的多样性，最终确定要爬取的网站。2.学习并认识了beautifulsoup的具体内容。2.总结经历过云计算平台配置失败之后，想着既然不能提高运行效率，就尽量提高药品说明书爬取的质量，开始比较各大医药网站中的药品说明书内容，尽量找到更为详尽，结构更加清晰且数量更加庞大的医药网站。最终确定了爬取“药源网”中的中药和化学药的相关药品说明书。&n

2021-07-28 01:32:58 105

原创【暑期实训】任务记录 2021-7-8

山东大学暑假实训医疗知识图谱第二周记录二目录1.工作内容2.总结1.工作内容配置山大云计算平台python、beautifulsoup及lxml相关版本。2.总结为了解决之前爬虫爬取效率过低的问题，尝试将python代码部署到山大云计算平台上运行，所以先进行了相关环境配置。先将云计算平台现有python2.x版本更新到3.6.但是之后在beautifulsoup环境搭建过程中，出现了由于python版本升级而导致的部分文件不可用的情况，在尝试多方查找进行问题解决的过程中无果，最后放弃了云计算平台的

2021-07-28 01:27:29 103

sjhsjhsjh111的博客

原创【暑期实训】任务记录 2021-7-21

原创【暑期实训】任务记录 2021-7-20

原创【暑期实训】任务记录 2021-7-19

原创【暑期实训】任务记录 2021-7-15

原创【暑期实训】任务记录 2021-7-14

原创【暑期实训】任务记录 2021-7-13

原创【暑期实训】任务记录 2021-7-10

原创【暑期实训】任务记录 2021-7-8

原创【暑期实训】任务记录 2021-7-6

原创【暑期实训】任务记录 2021-7-2

原创【暑期实训】任务记录 2021-6-30

原创【暑期实训】任务记录 2021-06-28

空空如也

空空如也