Nuyoah2u-CSDN博客

原创使用XPath的爬虫

使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。 #coding=utf-8 import requests from lxml import etree import json class Tieba: def __init__(self,tieba_name): self.tieba_name = tieba_name #接收贴吧名 #设置为手机端的UA self.headers =

2021-03-30 22:59:43 169

原创 XPath与lxml类库

有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官方文档：http://w

2021-03-30 22:51:37 85

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用XPath的爬虫

原创 XPath与lxml类库

空空如也

空空如也

原创使用XPath的爬虫