xpath 解析离线网页解析本地网页解析本体html文件

最新推荐文章于 2024-05-18 20:31:25 发布

qq_42328575

最新推荐文章于 2024-05-18 20:31:25 发布

阅读量2.7k

点赞数 5

分类专栏：爬虫文章标签：爬虫 xpath 解析离线文件

本文链接：https://blog.csdn.net/qq_42328575/article/details/87919013

版权

爬虫专栏收录该内容

2 篇文章 1 订阅

订阅专栏

去年的工作，发第一篇试试

 # coding= utf-8
import requests
from lxml import etree  # path = './web/new_index.html'
fp = open('E:\\0爬虫监控平台\\错误码视图\\应用监控平台.html','rb')
html = fp.read().decode('utf-8')   #.decode('gbk')
print(html) 
selector = etree.HTML(html)   #etree.HTML(源码) 识别为可被xpath解析的对象
print(selector)
infos = selector.xpath('//*[@id="tabs"]/ul/li[3]/a/text()') 
print(type(infos)) #运行结果 <class 'list'>
print(len(infos))  #运行结果 11
print(infos)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42328575

关注关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
xpath 解析离线网页解析本地网页解析本体html文件

去年的工作，发第一篇试试 # coding= utf-8import requestsfrom lxml import etree # path = './web/new_index.html'fp = open('E:\\0爬虫监控平台\\错误码视图\\应用监控平台.html','rb')html = fp.read().decode('utf-8') #.decode('gbk...
复制链接

扫一扫