Python lxml库 提取并保存网页正文部分

有时候, 看见一篇网页, 不知道怎样离线保存。使用浏览器的保存网页功能, 又会保存下许多无用的信息, 如广告等其他部分。
为解决这个问题, 本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式, 提取网页的正文部分。

1.下载页面

使用requests库的get方法即可, 注意添加headers, 否则会爬取不到内容。
requests库可使用pip安装: pip install requests

from requests import get
from lxml.etree import HTML, tostring
import re

headers = {
"User-Agent": """Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"""
}

url = input('输入网址: ')
req = get(url,headers=headers)
text=req.content.decode('utf-8')
2.获取文章对应的标签

在网页的正文内容部分上右击 => 检查, 找到<article>或一个<div>标签, 该标签的内容就是大多数网页的正文部分。
然后右击, 复制XPath即可。这个XPath很重要。不同的网站, 这个XPath不相同。

3.提取标题和正文部分

提取标题, 需要使用正则表达式。注意: re.S表示点"."匹配全部字符, 若不用re.S参数, 会无法提取内容。
提取正文: 首先创建lxml.etreeHTML()对象。
该对象的xpath()方法会返回一个列表, 包含符合这个XPath的所有标签。
然后, 用上一步找到的XPath提取正文部分。

title = re.findall('<title>(.*?)</title>',text,re.S)[0]
tree = HTML(text)

div = tree.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]')[0] # 百度的
#div = tree.xpath('//*[@id="mainBox"]/main/div[1]')[0] # C站的
content='<html><head><title>%s</title><body>'%title # 要保存的网页内容
4.提取CSS样式

CSS样式是修饰网页的工具, 可控制网页的排版。这里再次使用开发工具, 找到了包含CSS样式的标签, 并将标签加入content中。如果不用CSS, 可能会出现网页排版混乱的情况。
但是, 不是保存所有的网页都需要提取CSS样式这个步骤。

css_patt=re.compile('<link rel="stylesheet" href=".*?blog.*?"',re.S)
for css in re.findall(css_patt,text):
    content+=css+'>'
5.保存网页
content += tostring(div, method='html').decode('utf-8')
content += '</body></html>'

# 去除文件名不能包含的特殊字符, 用字符串的translate方法
tbl = str.maketrans('','','\\/:*?"<>|')
filename = '%s.html'%title.translate(tbl)
with open(filename,'w',encoding='utf-8') as f:
    f.write(content)
6.总结

本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式。注意要善于使用浏览器的开发工具。
需要注意的是, 提取少数需手动展开的网页时, 爬取的内容会不完整, 只有网页的前半截。
完整源代码: gitcode.net/qfcy_/python/-/tree/master/WEB

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
Pythonlxml是一个用于解析XML和HTML文档的扩展,即使处理的标签非常混乱,也能快速解析。你可以使用pip install lxml命令来安装lxml。\[1\] 而requests是一个用于发送HTTP请求的,相比内建的urllib2模块,它具有更快的速度和更好的可读性。你可以使用pip install requests命令来安装requests。\[1\] 使用requests的get方法可以发送GET请求,通过添加headers参数可以模拟浏览器发送请求,以防止爬取不到内容。\[2\] 下一步,我们可以使用requests.get方法从网页中获取数据,并使用lxml解析它。将解析结果保存在tree中,以便进一步处理。\[3\] #### 引用[.reference_title] - *1* *3* [Python语言使用lxml模块和Requests模块抓取HTML页面的教程](https://blog.csdn.net/weixin_39890543/article/details/110786861)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Python lxml 提取保存网页正文部分](https://blog.csdn.net/qfcy_/article/details/119817805)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qfcy_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值