python爬虫系列(3.6-css选择器)

最新推荐文章于 2024-08-06 16:04:58 发布

weixin_34352449

最新推荐文章于 2024-08-06 16:04:58 发布

阅读量445

点赞数

文章标签：爬虫 python

原文链接：https://juejin.im/post/5be3f09451882516fb2b9857

版权

章节是继上一小节的知识点,只是本人把它拆分了,如果你对css比较熟悉的话,可以直接使用这一章节的选择器

一、关于select选择器的使用

1、直接获取元素节点

print(soup.select('a'))

2、根据类名查找,比如要查找class=sister的标签

print(soup.select('.sister'))

3、根据id查找

print(soup.select("#link1"))

4、多条件查找

print(soup.select("p #link1")) # 查找p标签且是带id="link1"

5、查找子节点

print(soup.select("head > title"))

6、通过属性查找

print(soup.select('a[href="xx"]'))

二、获取内容

注意使用select选择的节点返回的都是list

soup = BeautifulSoup(html_doc, 'lxml')

position = []

trs = soup.select('tr')

for tr in trs:

tds = tr.select('td')

post = {}

title = tds[0].select('a')[0].get_text()

type = tds[1].get_text()

num = tds[2].get_text()

city = tds[3].get_text()

public_time = tds[4].get_text()

post['title'] = title

post['type'] = type

post['num'] = num

post['city'] = city

post['public_time'] = public_time

position.append(post)

print(position)

转载于:https://juejin.im/post/5be3f09451882516fb2b9857

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34352449

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫之css选择器

09-24

python爬虫 css提取网页内容的详细方法，有助于新手可以轻松上手，内容简单易懂，轻松掌握css的使用

python爬虫 CSS选择器

田培融的博客

09-20

546

通过 CSS选择器爬取网页内容。需要先学习CSS选择器的语法。

参与评论您还未登录，请先登录后发表或查看评论

Python 爬虫入门（十）：Scrapy选择器「详细介绍」

最新发布

blues_C的博客

08-06

1617

欢迎来到“Python 爬虫入门”系列文章。在网络爬虫中，选择器是解析和提取网页内容的重要工具，不同的选择器有不同的特点和应用场景。CSS选择器、XPath选择器、正则表达式和PyQuery选择器，并结合具体实例讲解如何在Scrapy中使用这些选择器来提取数据。为了更好的展示，我们将使用的数据。不同的选择器有不同的特点和适用场景。通过掌握CSS选择器、XPath选择器、正则表达式和PyQuery选择器的使用方法，可以有效地提取网页中的数据。

python css选择器_Python爬虫之CSS选择器

weixin_39845306的博客

12-08

422

CSS选择器这是另一种与find_all()方法有异曲同工的查找方法，写CSS时，标签名不加任何修饰，类名前加.，id名前加#。在这里我们也可以利用类似的方法来筛选元素，用到的方法是soup.select()，返回的类型是list。(1)通过标签名查找#!/usr/bin/python3#-*-coding:utf-8-*-frombs4importBeautifulSouphtml...

Python爬虫CSS选择器

Hubz131的博客

03-27

1149

CSS – Python爬虫常用CSS选择器（Selectors） selector example description .class .your_class 选择所有class="your_class"的元素 #id #name 选择所有id="name"的元素 * * 选...

python爬虫系列11--CSS选择器

chenkaifang的博客

06-07

742

参考链接：http://www.w3school.com.cn/cssref/css_selectors.asphttps://blog.csdn.net/u013007900/article/details/54728408css是一门将HTML文档样式化的语言。选择器由它定义，并与特定的HTML元素的样式相关连。在CSS中，选择器是一种模式，用于选择需要添加样式的元素。选择器 ...

python爬虫数据解析-css选择器

Green_F的博客

12-21

704

数据解析结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)] 半结构化数据非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档等。 http://www.bejson.com/jsonedi

从头开始系统化的学习如何写Python爬虫。 Python版本 3.6 .zip

02-03

- **解析HTML**：掌握如何查找元素，提取文本，遍历HTML树，以及使用CSS选择器和XPath表达式。 4. **实战案例**： - **静态网页爬取**：选取简单的静态网页，实践使用requests和BeautifulSoup获取数据。 - **...

Python爬虫框架scrapy---入门

wiky的专栏

03-09

525

预备知识 Python基础语法浏览器开发者工具使用（要求对网络请求情况及前端相关知识(html、css)等有基本的了解）环境及工具安装指南 Window环境下安装的一点小问题下载python通常已经包括了pip(可在安装后进入安装目录/Scripts查看) 安装pywin32可以采用：pip install pywin32 Scrapy安装错误可以参考:Scrapy安装...

python requests下载网页_python爬虫 requests-html的使用

weixin_39600319的博客

12-03

2027

一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。# 官网解释'''This library inten...

Python-基于python36的微博爬虫scrapy

08-10

3. **Selectors**：Scrapy使用XPath或CSS选择器来从HTML或XML文档中提取数据。这些选择器允许开发者指定要提取的元素，并可以进行数据转换和处理。 4. **Items**：在`items.py`中，定义了爬虫要抓取的数据结构。...

scrapy爬虫之CSS选择器(比前面两个更全)

12-24

一个使用css选择器的完整爬虫工程，比本人前面两个相应资料更完整，与博文同步分享。

Python爬虫编程思想（64）：在pyquery中使用CSS选择器

一个被知识诅咒的人

10-31

416

pyquery的CSS选择器用于指定CSS代码，并通过CSS代码选取HTML文档中对应的节点。创建一个CSS选择器需要创建一个PyQuery对象，PyQuery类的构造方法需要传入一个HTML文档（可以是字符串、URL或文件形式）。由于PyQuery类重载了函数调用运算符（实现了__call__函数），所以可以按下面的代码使用PyQuery类的实例。 from pyquery import PyQuery as pq doc = pq(html) # 由于PyQuery类重载了函数调用...

Python---爬虫---解析---CSS选择器

weixin_41245276的博客

02-19

412

python爬虫基础-CSS选择器（简单好学）

pythonuser1的博客

08-06

2944

全称：Cascading Style Sheet 语言，属于标记语言CSS3中的3表示版本号。

Python网络爬虫(八)——CSS选择器

止步听风的博客

05-21

842

CSS 层叠样式表(Cascading Style Sheets，CSS)是一种用来表现 XML/HTML 等文件样式的计算机语言。 CSS 不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页个元素进行格式化。 CSS 能够对网页中元素位置的排版进行像素级的精确控制，支持几乎所有的字体字号样式，拥有对网页对象和模型样式编辑的能力。 CSS 选择器 而使用 CSS 选择器可以对 HTML 页面总的元素实现一对一、一对多或者多对多的控制。每一条 CSS 样式定义由两部分构成： [cod

Python爬虫实例（3）--BeautifulSoup的CSS选择器

qq_34786604的博客

08-31

1902

bs4 css选择器 爬虫使用CSS选择器 爬虫抓取小说章节目录

python爬虫05：爬虫与css选择器

lafea的博客

08-04

1272

爬虫与css选择器 scrapy 依赖 lxml， lxml 是c语言写的，也支持css css 没有 xpath 强大 # -*- coding: utf-8 -*- import scrapy class JobboleSpider(scrapy.Spider): name = 'jobbole' allowed_domains = ['news.cnblogs.com'] start_urls = ['http://news.cnblogs.com/'] de

爬虫之CSS选择器

sdadaaagfsee3的博客

09-25

203

CSS选择器 from bs4 import BeautifulSoup 解析html文档 soup = BeautifulSoup(open('web.html','r',encoding = 'utf-8'),'lxml') 通过标签进行选择 print(soup.select('span')) #[<span>logo</span>] 返回一个列表 print(...

Python爬虫教程：CSS选择器详解

"Python爬虫利用CSS选择器提取网页内容" 在Python爬虫中，CSS选择器是一种强大的工具，用于从HTML或XML文档中精准地选取需要的数据。它们基于CSS（层叠样式表）规范，使得我们可以高效地定位到网页中的特定元素。...