山东大学暑假实训医疗知识图谱第二周记录一
1.工作内容
1.了解了国内现有的药物网站
2.查阅了爬虫相关知识,尝试写了关于药源网药品数据爬取的代码,并验证了其正确性
2.总结
因为可以算是第一次正式接触爬虫,所以先从网上找了相关demo进行学习,配置好了requests、lxml以及beautifulsoup.之后查看了国内现有的药品网站,包括求医问药、药源网等网站,发现药源网中药品分类比较工整,按照首字母排序,所以就尝试爬取药源网的药品说明书数据。
现阶段遇到的问题是,因为我的代码实现是先把所有的药品信息内容存储起来,等遍历完全部的药品信息之后,再统一写到输出文件中,所以在爬虫运行过程中我没管它,等再看的时候发现程序运行到中间时,报了HTTP异常,暂时还没想明白是哪个地方出了问题。而且数据量大爬虫运行速度慢,在想能不能借助山东大学云计算平台来加快数据爬取效率。