用Python+XPath爬取linux命令

最新推荐文章于 2023-12-11 09:11:05 发布

陆柒也是魏哲

最新推荐文章于 2023-12-11 09:11:05 发布

阅读量148

点赞数

分类专栏：爬虫 python 文章标签： python

本文链接：https://blog.csdn.net/qq_36891203/article/details/108876334

版权

爬虫同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

爬取的目标

Linux命令大全(手册)

用到的工具

语言：Python
解析库：lxml
查询语言：Xpath

XPath相关知识

在线Xpath测试平台
 XPath菜鸟教程

开始爬取数据

最后需要的得到JSON格式

{
	"name":,
	"usage":,
	"params":[
		{"param":,"content":}
	]
}

目标网站首页给出了一个命令的列表，我们需要得到每一个命令子页面的url
在这里插入图片描述
将源代码复制到xpather上，可以方便测试写出的XPath是否正确

得到解析出子页面url的XPath


//div[contains(@class,'column col-half')]/ul/li[@class='format-standard']/a/@href

在子页面中提取要爬取的数据
在这里插入图片描述
usage

//p/strong[contains(text(),"语法格式:")]/parent::node()/text()

params

//article//table//td

python代码

import requests
from lxml import etree

data=[]
html = requests.get("https://www.linuxcool.com/").text
content = etree.HTML(html)
urls = content.xpath("//div[contains(@class,'column col-half')]/ul/li[@class='format-standard']/a/@href")[:-2]

def deal_suburl(it,url):
    it['params']=[]
    html=requests.get(url).text
    content=etree.HTML(html)
    usage=content.xpath('//p/strong[contains(text(),"语法格式")]/parent::node()/text()')
    it['usage']=usage
    params=content.xpath('//article//table//td/text()')
    for index in range(int(len(params)/2)):
        tmp={}
        tmp['param']=params[2*index].strip()
        tmp['content']=params[2*index+1].strip()
        it['params'].append(tmp)
    

for url in urls:
    it={}
    it['name']=url.split('/')[-1]
    deal_suburl(it,url)
    data.append(it)

写入文件

import json


file_name ='data.json'
with open(file_name,'w',encoding='UTF-8') as f:
    f.write(json.dumps(data,ensure_ascii=False))

陆柒也是魏哲

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录