最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫,于是知道了有XPATH这个神器,它的主要用法如下:
1.//定位根节点
2./往下层寻找
3.提取文本内容:/text()
4.提取属性内容:/@xxxx
在使用的过程中写了一个提取极客学院python课程名的简单爬虫,代码不到20行,给想学习python以及网络爬虫技术的朋友一个参考:
#!/usr/bin/env python
from lxml import etree
import requests
import json
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
url = "http://www.jikexueyuan.com/path/python"
html = requests.get(url)
selector = etree.HTML(html.text)
content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')
for i in content_field:
print i