Python 原生爬虫教程:HTML 与 CSS 基础入门

正所谓,知己知彼,百战不殆。我们爬虫的爬取对象,就是各式各样的网页,只有对网页的基本内容达到熟悉的程度,才能顺利的书写我们的爬虫程序。

以下是关于 Python 原生爬虫中 HTML 与 CSS 基础入门的教程:

HTML 基础入门

HTML(超文本标记语言)是构成网页的基础,使用标签来定义页面结构。以下是核心概念:

基本结构

html

预览

<!DOCTYPE html>
<html>
<head>
  <title>页面标题</title>
</head>
<body>
  <h1>一级标题</h1>
  <p>这是一个段落</p>
  <a href="https://example.com">链接</a>
  <img src="image.jpg" alt="图片">
</body>
</html>

常用标签

  • 标题<h1><h6>(重要性递减)
  • 段落<p>
  • 链接<a href="url">文本</a>
  • 图像<img src="路径" alt="描述">
  • 列表
    • 无序列表:<ul><li>项1</li></ul>
    • 有序列表:<ol><li>项1</li></ol>
  • 表格<table><tr><td>单元格</td></tr></table>
  • 表单<form><input type="text" /></form>

标签属性
标签可以通过属性提供额外信息,例如:

  • <a href="https://example.com" target="_blank">
  • <img src="image.jpg" width="200" height="100">
  • <div class="container" id="main">

CSS 基础入门

CSS(层叠样式表)用于美化 HTML 页面,控制布局和外观。

基本语法

css

选择器 {
  属性1: 值1;
  属性2: 值2;
}

选择器类型

  • 元素选择器:直接使用标签名,如ph1
  • 类选择器:使用.前缀,如.container
  • ID 选择器:使用#前缀,如#header
  • 属性选择器:如[type="text"]
  • 组合选择器:如div p(div 内的所有 p 元素)

常用属性

  • 文本样式colorfont-sizefont-familytext-align
  • 盒模型widthheightmarginpaddingborder
  • 背景background-colorbackground-image
  • 定位positiontopleftrightbottom
  • 显示displayvisibilityfloat

CSS 应用方式

  1. 内联样式:直接在 HTML 标签中使用style属性

    html

    <p style="color: red;">红色文本</p>
    
  2. 内部样式表:在 HTML 的<head>中使用<style>标签

    html

    <style>
      p { color: red; }
    </style>
    

  3. 外部样式表:通过<link>标签引入外部 CSS 文件

    html

    <link rel="stylesheet" href="styles.css">
    

在爬虫中应用 HTML 与 CSS 知识

爬虫通过分析 HTML 结构定位数据,CSS 选择器是最常用的定位手段。例如:

  • 提取所有文章标题:h2.title
  • 获取导航栏链接:nav a
  • 抓取商品价格:.product .price

后续爬虫教程会详细讲解如何结合 Python 库(如 BeautifulSoup)使用这些选择器提取数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值