爬虫网页分析前去除script等节点

最新推荐文章于 2023-12-05 19:06:23 发布

spider_fu

最新推荐文章于 2023-12-05 19:06:23 发布

阅读量769

点赞数

分类专栏：爬虫 python 文章标签： xpath 爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/fuzizhu1/article/details/109777964

版权

python 同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

爬虫

15 篇文章 0 订阅

订阅专栏

当我们有时候在爬取新闻等需要全部文本内容时，例如
在这里插入图片描述
通常会使用xpath下面的“//text()"来获取节点下全部文本，但是有的节点，比如script下的文本是我们不需要的，所以需要将这些节点在分析前就去除掉。

from random import randint
import pymysql
from lxml import html
import html as ht
r = requests.get(url, verify=False, timeout=60, headers={
                'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'})
tree = html.fromstring(r.text)
ele = tree.xpath('//script | //noscript')
for e in ele:
    e.getparent().remove(e)
Html = html.tostring(tree).decode()
tree = etree.HTML(Html)

这样就可以在去除掉js的节点后进行进一步分析了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

spider_fu

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫网页分析前去除script等节点

当我们有时候在爬取新闻等需要全部文本内容时，例如通常会使用xpath下面的“//text()"来获取节点下全部文本，但是有的节点，比如script下的文本是我们不需要的，所以需要将这些节点在分析前就去除掉。from random import randintimport pymysqlfrom lxml import htmlimport html as htr = requests.get(url, verify=False, timeout=60, headers={
复制链接

扫一扫