python爬虫学习

enhsa

于 2022-04-12 15:24:44 发布

阅读量498

点赞数

分类专栏： python相关文章标签： python

本文链接：https://blog.csdn.net/enhsa/article/details/124029681

版权

本文是作者学习Python爬虫的记录，包括安装beautifulsoup4、正则表达式、HTML、urllib和beautifulsoup4的基本使用。通过实际项目，作者了解了爬虫的整体思路和流程，强调理解HTML结构、正则表达式和库的使用。

摘要由CSDN通过智能技术生成

python爬虫学习

前言
一、安装需要的库
二、开始编程
总结

前言

实践是学习最好的老师。为了更加熟悉python开发，先从跟随前辈的教学博客，学习python爬虫开始。我会记录自己的学习过程，以及遇到的问题和如何解决的。如果能对小伙伴们有帮助就更好了。
参考链接：链接: link.
https://blog.csdn.net/bookssea/article/details/107309591

提示：以下是本篇文章正文内容，下面案例可供参考

一、安装需要的库

beautifulsoup4
re (python 现在应该是内置了这个库，不用自己安装）
xlwt
pycopy-urllib.request
pycopy-urllib.error 这两个安装的时候需要pip的版本是22.0.4, 但是我改了版本号之后还是不行，看了网上其他人的经验，直接安装urllib3，暂且这样安装，看看后续使用的时候会不会有问题。
后续做完了整个项目，证明这样安装是可以的。
sqlite3, 我在interpreter里没找到这个模块，暂且安装pysqlite3
在这里插入图片描述

二、开始编程

1.每个库的作用

1.beautifulsoup
主要功能是从网页抓取数据。通过解析文档为用户提供需要抓取的数据。其自动将输入文档转换为Unicode编码，输出文档转utf-8编码。支持python标准库中的HTML解析器。
首先要创建一个beautiful soup对象

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.正则表达式学习

特殊的字符序列，用于检查一个字符串是否与某种模式匹配。re模块提供Perl风格的正则表达式模式。
re.match 从字符串的起始位置开始匹配一个模式，如果不是起始位置匹配成功的话，返回None。
在这里插入图片描述

re.sub(pattern, repl, string, count, flags)，用于替换字符串中的匹配项，string是原始字符串，也是要被替换的字符串，pattern是正则中的模式字符串，repl表示要替换的字符串。即在string中和pattern匹配的部分用repl代替

3.HTML学习

HyperText Markup Language超文本标记语言
制作web页面
HTML文档是一种可以用任何文本编辑器创建的ASCII码文件，只有以.html或.htm为后缀时，连兰奇才对文档中标签进行解释。以.txt为后缀时，浏览器对其并不解释。
在csdn上编写文档用的就是HTML
排版命令：
< I >表示斜体排版， < /I >表示斜体排版到此阶数。一般加一个/就表示上一个命令到此结束。

<!DOCTYPE html>
<html>                                 {HTML文档开始}
<head>                                 {首部开始}
<meta charset="utf-8">                 {对于中文网页需要使用 <meta charset="utf-8"> 声明编码，否则会出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码，则你需要设置为 <meta charset="gbk">}
<