Python使用爬虫技术时,每运行一次,本地都会访问一次主机。为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可。现在我来分享一下爬取资料的调试过程。
一、将网页源代码存在本地
1、打开需要爬取的网页,鼠标右键查看源代码
2、复制源代码,将代码保存至本地项目文件目录下,文件后缀改为.html
二、在Python中打开本地html文件
打开并读取本地文件可使用BeautifulSoup方法直接打开
soup=BeautifulSoup(open(‘ss.html‘,encoding=‘utf-8‘),features=‘html.parser‘) #features值可为lxml
解析后可以直接使用soup,与请求网页解析后的使用方法一致
三、使用本地文件爬取资料
1、先爬取主页的列表资料,其中同义内容使用“@”符号连接
defdraw_base_list(doc):
lilist=soup.find(‘div‘,{‘class‘:‘babynames-term-articles‘}).findAll(‘article‘);#爬取一级参数
for x inlilist:
str1=‘‘count=0
a=‘@‘EnName=x.find(‘a‘).text;
Mean=x.find(‘div‘