使用xpath提取极客学院python课程内容名称

原创 2017年01月17日 17:34:39

最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫,于是知道了有XPATH这个神器,它的主要用法如下:

1.//定位根节点

2./往下层寻找

3.提取文本内容:/text()

4.提取属性内容:/@xxxx

在使用的过程中写了一个提取极客学院python课程名的简单爬虫,代码不到20行,给想学习python以及网络爬虫技术的朋友一个参考:

#!/usr/bin/env python
from lxml import etree
import requests
import json
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://www.jikexueyuan.com/path/python"
html = requests.get(url)
selector = etree.HTML(html.text)
content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')
for i in content_field:
	print i 


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

【极客学院出品】Cocos2d-X系列课程之五-三大特效使用

Cocos2d-x 是时下最热门的手游引擎,在国内和国外手机游戏开发使用的份额分别是70%和25%,在App Store的top10中,有7个是用它开发的。学了本节课程,也许你就能做出来一个呢!!! ...

【极客学院】-python学习笔记-3-单线程爬虫 (request安装遇到问题及解决,应用requests提取信息)

极客学院课程网址:http://www.jikexueyuan.com/course/821_2.html?ss=1 任务: 爬取极客学院官方网站的课程库,并保存 Request...

Java 8来了!!! 极客学院推出中国第1个Java8课程,详解Lambda 表达式

3月发布的Java 8有哪十大新特性,你知道不? 不知道?没关系,因为没几个家伙知道。不过看到这条消息的你将非常幸运:极客学院推出中国第1个Java 8课程,详细讲解最核心的Lambda 表达式使用方...

探究在线课程时长与观看人数的关系——以极客学院为例

背景看网络课程是假期充电的好方法,遇到一节短短的干货网络课,真是让人受益匪浅、回味无穷。但不知大家有没有类似的感受,当你在线上课程平台看到一个感兴趣的课程,并迫不及待的点进去一探究竟时,巨长的课程时长...

【极客学院出品】Cocos2d-X系列课程之九-BOX2D物理引擎

Cocos2d-x 是时下最热门的手游引擎,在国内和国外手机游戏开发使用的份额分别是70%和25%,在App Store的top10中,有7个是用它开发的。 本节课程为Cocos2d-x系列课程...

python request版 极客学院爬虫V1

定向爬取极客学院视频,原本只有年费VIP只能下载,经过分析,只要找个免费体验VIP即可爬取所有视频 涉及的基本技术:python xpath 正则 com 通过python调用迅雷从组件,实现自动...
  • sunsasi
  • sunsasi
  • 2015年09月07日 08:54
  • 476

Python简单网页爬虫——极客学院视频自动下载

一、需求背景最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军。极客学院的视频是需要会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结构,文件...

python scrapy版 极客学院爬虫V2

1 基本技术 使用scrapy2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课程3文件树如下│ jike.json ...
  • sunsasi
  • sunsasi
  • 2015年09月07日 16:55
  • 125

极客学院VIP全部课程

  • 2015年11月09日 14:22
  • 54B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:使用xpath提取极客学院python课程内容名称
举报原因:
原因补充:

(最多只允许输入30个字)