python静态网页爬虫之xpath

最新推荐文章于 2021-05-16 20:22:37 发布

weixin_34194317

最新推荐文章于 2021-05-16 20:22:37 发布

阅读量74

点赞数

原文链接：http://www.cnblogs.com/alan-babyblog/p/5506968.html

版权

常用语句：

1.starts-with(@属性名称，属性字符相同部分）使用情形：以相同的字符开头

<div id = 'test-1'>需要的内容1</div>

<div id = 'test-2'>需要的内容2</div>

<div id = 'test-3'>需要的内容3</div>

selector = etree.HTML(html)
content = selector.xpath('//div[start-with(@id,'test')]/text()')

2.string(.) 使用情形：标签套标签

<div id='class3'>美女，

　　<font color=red>你微信号是多少？</font>

</div>

selector = etree.HTML(html)
data = selector.xpath('//div[@id='test3']')[0]   #先大后小
info = data.xpath('string(.)')
content = info.replace('\n','').replace('  ','')  #替换换行符和tab

转载于:https://www.cnblogs.com/alan-babyblog/p/5506968.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34194317

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python（爬虫篇）——Xpath提取网页数据

CSDN博客

08-18

8885

路径常用规则nodename：选取此节点的所有子节点/：从根节点选取//：选取所有节点，不考虑位置.:选取当前节点..:选取当前节点的父节点@：选取属性谓语规则谓语被镶嵌在方括号内用来查找某个特定的节点或者包含某个特定的值的节点:选取body下的第一个div节点:选取body下最后一个div节点:选取body下倒数第二个div节点:选取body下前两个div节点:选取body下带有class属性的div节点:选取body 下class属性为main的div节点。...

Python爬虫：xpath，cookie都正确仍然无法爬取需要的内容解决方法之一

m0_71242960的博客

12-23

2286

经过很多次尝试以及仔细观察所爬取的html代码内容，我发现有一个标签里含有的css代码：style = display:none ，这行代码可以把这个标签里面的内容隐藏。展开这个标签里面的内容，很可能就是我们所需要的真实的页面a标签里面的url地址。注意，这里说了一般，有些网站的反爬措施很高级，甚至会封掉你的ip。看这篇文章的猿猿们肯定有了一定的python-xpath爬虫基础了，后面对li_tree的处理以及延伸获取所需要的页面内容我在这就不介绍啦！这样我们就得到了正确的li_tree。

参与评论您还未登录，请先登录后发表或查看评论

《结对-爬取大麦网演唱会信息-开发环境搭建过程》

09-25

356

搭建环境： 1.安装Python 网址：https://www.python.org/ 2.安装Pycharm 网址：http://www.jetbrains.com/pycharm/ 3.安装Beautiful Soup模块网址：https://pypi.python.org/pypi/beautifulsoup4/4.6.0 4.安装Firefox Developer...

python语言 Xpath - 票牛网演出爬虫

qq_40019973的博客

04-10

972

作业要求：票牛网http://www.piaoniu.com/cd-dramas/hottest 目标内容：爬取演出信息，包括演出名称、详细网址、时间、地址、票价等内容任务要求：使用xpath完成，结果保存到csv文件中涉及知识点：requests获取网页源代码、xpath获取内容、python读写CSV文件先说说Xpath与上一次的正则表达式有何区别？通过上一次实验知道通过用正则表达式来...

爬虫中xpath的相关知识

syuuenn的博客

07-25

159

1、XML语言 <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year&gt...

python爬虫：xpath爬取静态网页

杂文集

11-04

4284

关于爬虫我原来用的一直是pyquery解析库，最近尝试了一下xpath，发现它真的很强大。下面是一个xpath的一个小栗子。这是一个题库的网址，我们要做的就是把所有的题目和答案爬取下来，一共是16页。先用request获取页面的html。 response = requests.get("http://syszr.hfut.edu.cn/redir.php?catalog_id=6&tikubh=4200&cmd=learning") print(response.text.enco

简单静态网页爬虫-xpath

qq_29153321的博客

04-21

698

xpath语法可参考 https://www.cnblogs.com/gaochsh/p/6757475.html https://cuiqingcai.com/2621.html 其中可以通过chrome安装xpath插件进行验证自己写的关键爬虫xpath语句（过程略）第一则是爬取豌豆荚下的应用类别，输入格式.xlsx(主要由包名组成，前缀一致) 代码如下： ...

python爬虫之xpath

无情

03-02

1111

python爬虫之xpath XPath是一门语言 XPath可以在xml文件中查找信息 XPath支持HTML XPath通过元素和属性进行导行 XPath比正则表达式厉害，简单 XPath使用要使用XPath就必须要在python中安装lxml库 from lxml import etree selector =etree.HTML(网页源代码） selector.xpath(xpath语法)

Python爬虫之XPath

灵馨轩主人的博客

06-02

576

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML PathLanguage，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值...

Python使用爬虫爬取静态网页图片的方法详解

09-20

Python爬虫用于爬取静态网页图片的方法涉及到网络爬虫的基本原理和Python的相关库。首先，爬虫的主要步骤包括下载网页、管理URL以及解析网页内容。在Python中，我们可以使用内置的`urllib2`或第三方库`requests`作为...

58同城搜索页静态html代码爬虫xpath测试demo

01-07

本项目"58同城搜索页静态html代码爬虫xpath测试demo"专注于利用XPath技术从58同城网站的搜索页面中提取静态HTML代码，以获取相关数据。首先，我们要理解HTML。HTML（HyperText Markup Language）是网页内容的基础...

Python网页爬虫程序框架