python爬虫中的数据分析------css选择器详解

最新推荐文章于 2024-04-28 20:59:23 发布

不想做程序猿的员

最新推荐文章于 2024-04-28 20:59:23 发布

阅读量2k

点赞数 3

分类专栏：爬虫文章标签： python css 爬虫

本文链接：https://blog.csdn.net/m0_74459049/article/details/130213264

版权

爬虫专栏收录该内容

10 篇文章 4 订阅

订阅专栏

一.数据的类型

1 结构化的数据

结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据,一般特点是:数据以行为单位,一行的数据表示一个实体的信息,每一行数据的属性是相同的.

2 半结构化数据

非关系模型的,有基本的固定的结构模式的数据,例如日志文件,XML文档,jsonW文档等.

3 非结构化的数据

见名知意,就是没有固定结构的数据,各种文档,图片,视频/音频都是属于非结构化的数据,对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式.

二.简介HTML

1 HTML

Ⅰ HTML 是一种超文本标记语言(Hyper Text Markup Language)是用来描述网页的一种语言.

①超文本的解释

它可以加入图片,声音,动画,多媒体等内容,即:超越文本的限制;不仅如此,它还可以从一个文件跳转到另一个文件,与世界各地的主机的文件连接,即:超级链接文本

Ⅱ HTML 不是一种编程语言,而是一种标记语言(markup language)

Ⅲ 标记语言是一套标记标签(markup tag)

Ⅹ 简单来说,就是:网页是由网页元素组成的,这些元素利用HTML标签描述出来,然后通过浏览器解析,就可以显示给用户了.

2 HTML 的骨架标签总结

①基本的框架如下图所示:

在这里插入图片描述

② 各个标签的解释如图

在这里插入图片描述

3 HTML标签关系

父子级的标签


<head>
	<title> </title>
</head>

兄弟级的标签


<head></head>
<body></body>

1 html双标签可以分为: 一种是父子级包含关系的标签一种是兄弟级并列关系的标签

三.CSS选择器的详解

在css种,选择器是一种模式,用于选择需要添加样式的元素,那么我们就可以使用css选择器,在html中找到所对应的标签.

1 简单的例子如下:

在这里插入图片描述

2 标签选择器

标签选择器其实就是我们经常说的html代码中标签.例如:html, span, p, div, a, img等等;比如我们想要设置网页中的p标签内的一段文字的字体和颜色.那么css的代码就如下所示:

# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p>css标签选择器的介绍</p>
	<p>标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""


import parsel
selector = parsel.Selector(html)
span = selector.css('span').getall()
print(span)

运行结果:
[‘ 我是一个span标签’]

3 类选择器

类选择器在我们今后的css样式编码中是最常见到的,它是通过为元素设置单独的class来赋予元素样式效果,使用语法:(我们在这里为p标签单独设置一个class 类属性,代码就如下所示)

# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p class="top">css标签选择器的介绍</p>
	<p class="top">标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""
import parsel
selector = parsel.Selector(html)
p = selector.css('.top').getall()
print(p)

运行结果:
[‘

css标签选择器的介绍

’, ‘

标签选择器、类选择器、ID选择器

’]

详细的讲解:

类选择器都是使用英语的圆点(.)开头.
每个元素可以有多个类名,名称可以任意起名(但是不要取中文名,一般都是与内容相关的英文的缩写)

4 ID选择器

ID选择器类似于类选择器,作用同类选择符相同,但是也有一些区别.


# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p class="top">css标签选择器的介绍</p>
	<p class="top">标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""
import parsel
selector = parsel.Selector(html)
p = selector.css('#content').getall()
print(p)

结果如下:
[‘

css标签选择器的介绍

’, ‘

标签选择器、类选择器、ID选择器

’]

详细的讲解:
1.ID选择器为标签设置id=“ID名称”,而不是class=“类名称”
2.ID选择符的前面是符号为井号(#),而不是英文圆点(.).
3.ID选择器的名称是唯一的,即相同名称的id选择器在一个页面中只能出现一次;

5 组合选择器

可以多个选择器一起使用,就是组合选择器.

# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p class="top">css标签选择器的介绍</p>
	<p class="top">标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""
import parsel
selector = parsel.Selector(html)
result = selector.css('p#contend.top').getall()
print(result)

结果如下:
[‘

css标签选择器的介绍

’, ‘

标签选择器、类选择器、ID选择器

’]

6 伪类选择器

可以用==:==指定选择想要提取的第几个标签.

在这里插入图片描述


# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p class="top">css标签选择器的介绍</p>
	<p class="top">标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""
import parsel
selector = parsel.Selector(html)
result = selector.css('p:nth-child(2)::text').getall()
print(result

结果如下:
[‘标签选择器、类选择器、ID选择器’]

7 属性提取器

可以用==::==来提取标签包含的属性.

# 简化的html标签
html = """
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签选择器</title>
</head>
<style>
	p{
		color: #f00;
		font-size: 16px;
	}
</style>
<body>
	<p class="top">css标签选择器的介绍</p>
	<p class="top">标签选择器、类选择器、ID选择器</p>
	<a href="https://www.baidu.com">百度一下</a>
	<span> 我是一个span标签</span>
</body>
</html>
"""
import parsel
selector = parsel.Selector(html)
result = selector.css('p#contend.top::text').getall()
print(result)
result = selector.css('a::attr(href)').getall()
print(result)