【暑期实训】任务记录 2021-7-6

山东大学暑假实训医疗知识图谱第二周记录一

1.工作内容

1.了解了国内现有的药物网站
2.查阅了爬虫相关知识,尝试写了关于药源网药品数据爬取的代码,并验证了其正确性

2.总结

因为可以算是第一次正式接触爬虫,所以先从网上找了相关demo进行学习,配置好了requests、lxml以及beautifulsoup.之后查看了国内现有的药品网站,包括求医问药、药源网等网站,发现药源网中药品分类比较工整,按照首字母排序,所以就尝试爬取药源网的药品说明书数据。
现阶段遇到的问题是,因为我的代码实现是先把所有的药品信息内容存储起来,等遍历完全部的药品信息之后,再统一写到输出文件中,所以在爬虫运行过程中我没管它,等再看的时候发现程序运行到中间时,报了HTTP异常,暂时还没想明白是哪个地方出了问题。而且数据量大爬虫运行速度慢,在想能不能借助山东大学云计算平台来加快数据爬取效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值