python爬虫笔记--过程

最新推荐文章于 2024-10-16 10:46:55 发布

iriszzy

最新推荐文章于 2024-10-16 10:46:55 发布

阅读量111

点赞数

分类专栏： Python学习文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/iriszzy/article/details/116431387

版权

Python学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 准备工作

1.1 调用模块

import bs4     #网页解析，获取数据
import re      #正则表达式，进行文字匹配
import urllib.request,urllib.error     #指定url，获取网页数据
import xlwt    #进行excel操作
import sqlite3  #进行SQLite进行数据库操作

1.2 爬取过程

获取数据
解析内容
保存数据

2 获取数据

2.1 urllib扩展知识

2.1.1 网页基本知识

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。

HTML
HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。
常见的标签如下：
在这里插入图片描述
CSS
CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。