python-爬虫

最新推荐文章于 2023-06-08 12:49:27 发布

zz的博客

最新推荐文章于 2023-06-08 12:49:27 发布

阅读量606

点赞数

分类专栏： python 计算机网络文章标签：爬虫 python xpath beautifulsoup

本文链接：https://blog.csdn.net/qq_41956860/article/details/103956270

版权

本文详细介绍了Python爬虫的基本流程，包括使用urllib、requests库发送请求，利用xpath和beautifulSoup解析HTML，以及如何进行URL清洗和处理。讲解了requests库的Response对象，XPath的路径、谓语、通配符和轴的概念，beautifulSoup的四大对象种类和CSS选择器，还提及了lxml库的css选择器和tldextract库的顶级域名提取。同时，提到了正则表达式在URL清洗中的应用。

摘要由CSDN通过智能技术生成

基本流程

向网页发送请求
分析网页

python3 与 python的区别

urllib.parse 替代 urlparse
urllib.robotparser 替代 robotparser

urllib

parse

robotparser

requests

官方文档：https://2.python-requests.org/en/master/
官方文档中文版：https://2.python-requests.org//zh_CN/latest/user/quickstart.html

requests无论get()还是post()都会返回一个Response对象，下载到的内容就通过这个对象获取：

res.content 是得到的二进制内容，其类型是bytes；
res.text 是二进制内容content decode后的str内容；
它先从response headers里面找到encoding，没找到就通过chardet自动判断得到encoding，并赋值给res.encoding，最后把二进制的content解密为str类型。
requests还有个好用的就是Session，它部分类似浏览器，保存了cookies，在后面需要登录和与cookies相关的爬虫都可以用它的session来实现。
老猿经验: res.text判断中文编码时有时候会出错，还是自己通过cchardet（用C语言实现的chardet）获取更准确。这里，我们列举一个例子：

xpath

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

路径

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()< 3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=‘eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

通配符、组合符

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//title[@*]	选取所有带有属性的 title 元素。
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。

XPath 轴（Axes）

轴可定义相对于当前节点的节点集。
设type(e) :<class ‘lxml.html.HtmlElement’>

轴名称	结果	获取
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。	e.get(attr_name)
children	选取当前节点的所有子元素。	e.getchildren()
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
following	选取文档中当前节点的结束标签之后的所有节点。
following-sibling	选取当前节点之后的所有兄弟节点
namespace	选取当前节点的所有命名空间节点。
parent	选取当前节点的父节点。	getparent()
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。

HtmlElement

https://lxml.de/api/lxml.html.HtmlElement-class.html
参考学习网站：Codeup.cn/contest.php?cid=100000601

属性（Properties）

名称	解释
attrib	show all attributes
tag、text、tail	获得相应属性值
get(attrib_name)	获得属性值
find()	`e.find(".//div[@class='state']")`返回第一个查找结果
findall()	`e.find(".//div[@class='state']")` 返回所有查找结果
.drop_tag()	移除该html tag，但保留它的子节点和文本并合并到该tag的父节点。
.drop_tree()	移除该节及其子节点和文本，而它后面的文本(tail text)合并到前面一个节点或父节点。
find_class(class_name)	通过class名称查找所有含有class_name的元素，返回HtmlElement的列表
getchildren()、getparent() 方法	顾名思义，获取孩子节点和父节点。需要注意的是，还是可以有多个（返回list），父亲只有一个。
.getnext() .getprevious() 方法	获取后一个或前一个节点，如果没有则返回None。
.getiterator()、.iter() 方法	从该节点开始，按文档顺序（深度优先）遍历所有子节点。可以指定只遍历某些tag。
.iterchildren()	只遍历子节点。
.iterancestors() .iterdescendants()	前者遍历前辈（从父亲节点开始），后者遍历后辈（从子辈开始），都跳过该节点。

例子

爬取特斯拉的充电站数量及位置

from lxml import html
import numpy
import requests
import json

url2 = 'https://www.tesla.com/findus/list/superchargers/United%20States'
url4 = 'https://www.tesla.com/findus/list/chargers/United+States'
header = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:66.0) Gecko/20100101 Firefox/66.0",
          "Referer": "https://www.mzitu.com/", }
page=requests.get(url4,headers=header)      # <class 'requests.models.Response'>
tree=html.fromstring(page.text)             # <class 'lxml.html.HtmlElement'>
pri