python爬虫基础知识之选择器

最新推荐文章于 2024-08-06 16:04:58 发布

ElsaRememberAllBug

最新推荐文章于 2024-08-06 16:04:58 发布

阅读量611

点赞数

分类专栏： python，爬虫，基础知识

本文链接：https://blog.csdn.net/ElsaRememberAllBug/article/details/78783572

版权

本文介绍了Python爬虫中选择器的基础知识，包括CSS选择器、XPath以及它们的区别。同时讲解了XML处理的DOM和SAX模式的优劣，并通过实例展示了如何使用DOM和SAX处理XML。此外，还提及了正则表达式在爬虫中的应用以及Selenium库在处理动态网页上的作用。

摘要由CSDN通过智能技术生成

1 选择器

1.1 Class

属性选择器：可以指定值来选择

后代选择器（包含选择器）

子选择器

1.2 Xpath

使用路径表达式在xml中进行导航

1.3 Xpath和css的区别：

Css更简洁

Xpath文件路径，看作目录树

XPath谓语很强大

1.4 Json

类似xml，但是更小更简洁

很方便，把字符串和字典来回切换

2 Xml处理的两种模式dom和sax的优劣

Dom把整个xml读入内存，解析为树，占用内存大，解析慢

Sax流模式，边读边解析，占用内存小，解析快

Xml处理爬虫的三个重要内容：标签，属性，内容，处理方式主要是dom和sax

3 Xml—xpath—dom/sax

3.1 通过dom处理

小文本，处理的方便

#获取根节点

doc=minidom.parse('book.xml')

root=doc.documentElement

print(type(root))

print(dir(root))

print(root.nodeName)

books=root.getElementsByTagNa

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ElsaRememberAllBug

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫之css选择器

09-24

python爬虫 css提取网页内容的详细方法，有助于新手可以轻松上手，内容简单易懂，轻松掌握css的使用

python学习-选择器

lc_c123的博客

03-19

813

scrapy 数据提取器 Selector CSS和Xpath scrapy shell url 交互式python环境用语测试和debug爬虫 CSS Selector response.css(‘div#images a::text’).extract() div#images 表示 id为images a标签 text文本 div.images class为images extra...

参与评论您还未登录，请先登录后发表或查看评论

Python 爬虫入门（十）：Scrapy选择器「详细介绍」

blues_C的博客

08-06

1517

欢迎来到“Python 爬虫入门”系列文章。在网络爬虫中，选择器是解析和提取网页内容的重要工具，不同的选择器有不同的特点和应用场景。CSS选择器、XPath选择器、正则表达式和PyQuery选择器，并结合具体实例讲解如何在Scrapy中使用这些选择器来提取数据。为了更好的展示，我们将使用的数据。不同的选择器有不同的特点和适用场景。通过掌握CSS选择器、XPath选择器、正则表达式和PyQuery选择器的使用方法，可以有效地提取网页中的数据。

python中的选择器

funny__man的博客

01-09

641

以https开头的href属性 ![在这里插入图片描述](https://img-blog.csdnimg.cn/8e829df3c3bb498982061057bbcc0bb4.p 包含"百度"的title元素同时有两个元素值的属性 css查找id css的选择class=“bugResetStyles” 选择target="_blank"的所有元素 ...

python css选择器_Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

weixin_39936403的博客

01-18

168

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。一、正则表达式正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化，但又存在难以构造、可读性差的问题。当在爬京东网的时候，正则表达式如下图所示：...

Python爬虫入门（DAY4）选择器selector创建（re/XPATH/Beautiful Soup/css/parser）（难点）

weixin_56005867的博客

05-15

895

正则表达式，又称规则表达式,（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为\"元字符\"），是计算机科学的一个概念。即通过我们规定好的提取规则，将HTML文档中的一些特殊资源片段（类似有css，xpath，下载资源地址等）提取出来，这些资源再经过后续处理美化（比如下载，保存，求和，统计等），就可以得到我们最终需要的资源。2.id属性值类似于身份证号码，在一个页面中是唯一的，不可重复的。

Python爬虫基础知识

03-03

### Python爬虫基础知识详解 #### 一、Python爬虫概述 Python爬虫是一种自动化工具，主要功能是从互联网上抓取和收集数据。它通过模拟浏览器的行为向目标网站发送网络请求，进而获取网页内容并从中提取所需的信息...

python爬虫基础知识、爬虫实例.doc

最新发布

09-14

### Python 爬虫基础知识 Python 爬虫（Web Scraping）是指使用 Python 编写程序来自动从网站上抓取数据的过程。它通常涉及到 HTTP 请求、HTML 解析、数据处理和存储等步骤。下面是一些 Python 爬虫的基础知识： #...

python爬虫基础知识.docx

08-26

以下是一些Python爬虫的基础知识： 1. **HTTP请求**：爬虫首先需要发送HTTP请求到目标网站，以获取网页内容。常用的HTTP请求方法包括GET和POST。 2. **HTML解析**：获取网页内容后，需要解析HTML文档，提取所需数据...

python爬虫基础知识.zip

02-01

Python爬虫基础知识是编程领域中的一个重要分支，它主要涉及如何使用Python语言自动化地从互联网上抓取数据。Python因其简洁的语法和丰富的第三方库而成为爬虫开发的首选语言。以下将详细介绍Python爬虫的基本概念、...

python网络爬虫（CSS选择器）

qq_42379006的博客

06-10

9818

CSS选择器用于选择你想要的元素的样式的模式

python爬虫数据解析-css选择器

Green_F的博客

12-21

687

数据解析结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)] 半结构化数据非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档等。 http://www.bejson.com/jsonedi

Python爬虫之选择器篇一，容易被忽视的强大的选择器 BeautifulSoup 。它支持CSS、re 的综合筛选。讲的超细！图文并茂！缺点速度较慢。

aoeryule的博客

09-29

2721

新手学Python爬虫篇一，小白入门requests，一个被忽视的强大的选择器： BeautifulSoup ，它支持CSS、re 的综合筛选。讲的超细！图文并茂。爱上BeautifulSoup 不是没有道理的！写法真的非常的简洁！舒适！

爬虫——选择器

weixin_30791095的博客

09-22

533

BeautifulSoup 导入类库 from bs4 import BeautifulSoup # 适用于简单页面创建soup对象 soup = BeautifulSoup(test_data,'lxml') 标签特性 1 # print(soup.a) #获取指定标签 2 # print...

python爬虫---css选择器

qq_42633222的博客

05-13

650

css选择器是什么？要使用css对HTML页面中的元素实现一对一，一对多或者多对一的控制，这就需要用到CSS选择器。HTML页面中的元素就是通过CSS选择器进行控制的。 CSS选择器主要用于选择需要添加样式的元素。 css选择器的详细用法： #container:选择id为container的节点 .container:选取所有class包含container的节点 ...

python爬虫 CSS选择器

田培融的博客

09-20

532

通过 CSS选择器爬取网页内容。需要先学习CSS选择器的语法。

python css选择器_Python爬虫之CSS选择器

weixin_39845306的博客

12-08

407

CSS选择器这是另一种与find_all()方法有异曲同工的查找方法，写CSS时，标签名不加任何修饰，类名前加.，id名前加#。在这里我们也可以利用类似的方法来筛选元素，用到的方法是soup.select()，返回的类型是list。(1)通过标签名查找#!/usr/bin/python3#-*-coding:utf-8-*-frombs4importBeautifulSouphtml...

Python爬虫基础与Scrapy框架详解

"该资源是一份关于Python爬虫技术的学习指南，主要介绍Python爬虫的基础知识，包括Scrapy框架的使用、Items的概念、XPath选择器、数据处理管道、中间件等核心组件，以及爬虫实战中的技巧。" Python爬虫是网络数据...