使用xpath提取极客学院python课程内容名称

原创 2017年01月17日 17:34:39

最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫,于是知道了有XPATH这个神器,它的主要用法如下:

1.//定位根节点

2./往下层寻找

3.提取文本内容:/text()

4.提取属性内容:/@xxxx

在使用的过程中写了一个提取极客学院python课程名的简单爬虫,代码不到20行,给想学习python以及网络爬虫技术的朋友一个参考:

#!/usr/bin/env python
from lxml import etree
import requests
import json
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://www.jikexueyuan.com/path/python"
html = requests.get(url)
selector = etree.HTML(html.text)
content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')
for i in content_field:
	print i 


版权声明:本文为博主原创文章,未经博主允许不得转载。

pyhton爬虫(9)——使用XPath提取网页信息

1. XPath基础1.1 什么是XPath?XPath 是一门在 XML 文档中查找信息(节点)的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。1.2 节点节点是XML文档中最小构...
  • FlySky1991
  • FlySky1991
  • 2017年07月18日 12:11
  • 583

Python爬虫实战:极客学院

今天我们来爬取一下极客学院的课程,这次我们用requests和xpath,小伙伴们看好了,这真是一对神奇组合,棒棒哒! 爬取前我们先看一下我们的目标: 1.抓取极客学院的课程 2.抓取每一...
  • flyingfishmark
  • flyingfishmark
  • 2016年04月28日 15:19
  • 2044

Python网页抓取:获取页面中某段内容的xpath

     在批量抓取网页内容时,我经常采用的做法是:1、得到目标内容在网页中的位置,即xpath路径;2、批量下载网页,然后利用xpath,取出每个网页中所需要的内容。     在这里,我们利用pyt...
  • kerwin_liu
  • kerwin_liu
  • 2011年05月09日 17:29
  • 8218

Python 网络抓取和文本挖掘 - 3 XPath

XPath 是一种查询语言,用于在HTML/XML文档中定位和提取一些片段。XPath也是一个W3C标准。XPath只能处理DOM,所以必须先将HTML或XML文档加载解析成DOM。在Python中可...
  • hjh00
  • hjh00
  • 2017年02月23日 22:43
  • 1372

Python中 etree.xpath实践

先记录下python的一个陷阱 如图: python获取字典里不存在的字段返回None None是一个特殊的常量。 None和False不同。 None不是0。 None不是空字符...
  • zlp1992
  • zlp1992
  • 2015年04月07日 15:28
  • 4854

xpath抓取的值有空格换行符等问题

解决办法: normalize-space() 例子: 原来的xpath为: user=selector.xpath('//*[@id="Con"]/tr[1]/t...
  • u012836179
  • u012836179
  • 2017年04月10日 16:22
  • 2593

python爬虫入门笔记:XPath与lxml库

lxml库是一个比较流行的解析库,使用的是XPath语法,效率比较高的解析方法。 主要学习资料是极客学院的定向爬虫、w3school​。 XPath简介:XPath 是一门在 XML ...
  • flyingfishmark
  • flyingfishmark
  • 2016年04月28日 10:44
  • 3755

使用Requests+xpath实现简单的数据爬取

今天使用Requests+xpath实现简单的数据爬取,获取的是CSDN博客上的标题,发表时间,和阅读次数下载PyCharm这里我使用的是PyCharmhttp://www.jetbrains.com...
  • mockingbirds
  • mockingbirds
  • 2017年04月30日 14:29
  • 5086

XPath 获取子节点的某个属性

其中.表示所匹配的当前结点,比如 其中在XML中相关代码如下: 益力多 ...
  • cg_Amaz1ng
  • cg_Amaz1ng
  • 2017年05月21日 17:04
  • 2214

用XPATH解析网页并抓取要的内容

用XPATH解析网页并抓取要的内容 HTML解析器有很多种,最常用的是HtmlAgilityPack和SgmlReader(http://sourceforge.net/projects/dekiwi...
  • huwei2003
  • huwei2003
  • 2015年11月04日 15:08
  • 8858
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:使用xpath提取极客学院python课程内容名称
举报原因:
原因补充:

(最多只允许输入30个字)