爬虫
LIVEAD
这个作者很懒,什么都没留下…
展开
-
python3 爬虫中的编码问题
问题1原网页链接显示:https://baike.baidu.com/item/小肠过敏性紫癜直接抓取报错:url='https://baike.baidu.com/item/小肠过敏性紫癜'urlop=urllib.request.urlopen(url,timeout=100)UnicodeEncodeError: 'ascii' codec can't encode ch...原创 2019-08-21 13:49:54 · 434 阅读 · 0 评论 -
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接
原因:未使用request之后未使用.close()关闭,且频繁访问,被认为是攻击行为解决方法一:.close()+暴力循环 i=1 while i==1: i=0 try: urlop=urllib.request.urlopen(url,timeout=100) data=urlop.read()....原创 2019-08-21 14:13:38 · 16600 阅读 · 0 评论 -
Python爬虫-----疾病信息爬取
一、爬取内容及网站1.本次爬取的网站是99健康网中的疾病信息,包括疾病名称,所属科室及体态特征信息2.网站中具体疾病的搜索路径有两种方式:按科室搜索、按部位搜索(1)按科室搜索:科室–小科室–所含疾病(2)按部位搜索:部位—所含疾病可以看出,按部位搜索的路径更短些,因此本次使用按部位搜索的过程,进行疾病信息的爬取。3.整体爬取思路:爬取所含部位----按部位爬取每一部位包含的疾病名称...原创 2019-08-16 17:27:49 · 3975 阅读 · 6 评论 -
python3 爬虫--百度百科
前期爬取的99健康网中的信息,疾病特征信息有较大的缺失,因此在百度百科中,爬取相关信息,之所以单列出来,主要在于百度百科中网页链接中的关键字编码与其他字段不同,需要重新转换。99健康网信息爬取过程请移步:https://blog.csdn.net/LIVEAD/article/details/99682492本文主要内容包括:百度百科搜索界面及链接特点转码新建链接缺失信息爬取1.百度...原创 2019-08-23 15:15:55 · 965 阅读 · 2 评论 -
python3爬虫---百度百科(疾病信息)
一、问题描述之前爬虫过程主要存在两个个问题:(1)爬取到网页源码之后,没有解析,直接利用正则表达式抓取信息,这样做起来比较费劲,容易造成信息抓取不全面,同时,所有页面链接都是根据链接规律自建的,没有做到自动爬取。(2)代码未做模块化处理,检查错误比较难。在改善了上述两个问题之后,重新爬取了百度百科中疾病信息库,并保存在.xlsx文件中二、网页分析及爬虫结构1、网页分析爬虫入口链接:r...原创 2019-08-30 18:14:40 · 831 阅读 · 3 评论