Python学习，解析本地HTML文件

最新推荐文章于 2023-08-03 16:12:05 发布

sehun_sx

最新推荐文章于 2023-08-03 16:12:05 发布

阅读量5.3k

点赞数 2

文章标签： python 开发语言数据挖掘 python学习学习

本文链接：https://blog.csdn.net/sehun_sx/article/details/123897205

版权

Python使用爬虫技术时，每运行一次，本地都会访问一次主机。为避免完成程序前调试时多次访问主机增加主机负荷，我们可以在编写程序前将网页源代码存在本地，调试时访问本地文件即可。现在我来分享一下爬取资料的调试过程。

一、将网页源代码存在本地

1、打开需要爬取的网页，鼠标右键查看源代码
在这里插入图片描述
2、复制源代码，将代码保存至本地项目文件目录下，文件后缀改为.html

二、在Python中打开本地html文件

打开并读取本地文件可使用BeautifulSoup方法直接打开

 soup=BeautifulSoup(open('ss.html',encoding='utf-8'),features='html.parser')  #features值可为lxml

解析后可以直接使用soup，与请求网页解析后的使用方法一致

三、使用本地文件爬取资料

1、先爬取主页的列表资料，其中同义内容使用“@”符号连接

'''
def draw_base_list(doc):
    lilist=soup.find('div',{
   'class':'babynames-term-articles'}).findAll('article');
    #爬取一级参数
    for x in lilist:
        str1=''
        count=0
        a='@'
        EnName=x.find('a').text;
        Mean=x.find('div',{
   'class':'meaning'}).text;
        Sou=x.find('div',{
   'class','related'}).findAll('a')
        Link=x.find('a').get('href');

最低0.47元/天解锁文章

sehun_sx

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python学习，解析本地HTML文件

Python使用爬虫技术时，每运行一次，本地都会访问一次主机。为避免完成程序前调试时多次访问主机增加主机负荷，我们可以在编写程序前将网页源代码存在本地，调试时访问本地文件即可。现在我来分享一下爬取资料的调试过程。一、将网页源代码存在本地1、打开需要爬取的网页，鼠标右键查看源代码2、复制源代码，将代码保存至本地项目文件目录下，文件后缀改为.html二、在Python中打开本地html文件打开并读取本地文件可使用BeautifulSoup方法直接打开 soup=BeautifulSoup(op
复制链接

扫一扫