宋梦科的专栏

在学习中成长,在分享中进步

使用xpath提取极客学院python课程内容名称

最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫,于是知道了有XPATH这个神器,它的主要用法如下:

1.//定位根节点

2./往下层寻找

3.提取文本内容:/text()

4.提取属性内容:/@xxxx

在使用的过程中写了一个提取极客学院python课程名的简单爬虫,代码不到20行,给想学习python以及网络爬虫技术的朋友一个参考:

#!/usr/bin/env python
from lxml import etree
import requests
import json
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://www.jikexueyuan.com/path/python"
html = requests.get(url)
selector = etree.HTML(html.text)
content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')
for i in content_field:
	print i 


阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/song527730241/article/details/54585155
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭