使用xpath提取极客学院python课程内容名称

最新推荐文章于 2021-02-04 04:49:57 发布

song527730241

最新推荐文章于 2021-02-04 04:49:57 发布

阅读量609

点赞数 1

分类专栏： Python 计算机网络脚本语言

本文链接：https://blog.csdn.net/song527730241/article/details/54585155

版权

计算机网络同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

脚本语言

4 篇文章 0 订阅

订阅专栏

Python

3 篇文章 0 订阅

订阅专栏

本文介绍了作者在学习Python时尝试使用XPath编写的一个简单爬虫，该爬虫用于从极客学院网站提取Python课程的名称。通过示例代码，分享了XPath的基本用法，包括定位根节点、向下搜索、提取文本和属性内容，为Python初学者和网络爬虫爱好者提供了实践参考。

摘要由CSDN通过智能技术生成

最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫，于是知道了有XPATH这个神器，它的主要用法如下：

1.//定位根节点

2./往下层寻找

3.提取文本内容：/text()

4.提取属性内容：/@xxxx

在使用的过程中写了一个提取极客学院python课程名的简单爬虫，代码不到20行，给想学习python以及网络爬虫技术的朋友一个参考：

#!/usr/bin/env python
from lxml import etree
import requests
import json
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://www.jikexueyuan.com/path/python"
html = requests.get(url)
selector = etree.HTML(html.text)
content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')
for i in content_field:
	print i