python爬虫学习

本文是作者学习Python爬虫的记录,包括安装beautifulsoup4、正则表达式、HTML、urllib和beautifulsoup4的基本使用。通过实际项目,作者了解了爬虫的整体思路和流程,强调理解HTML结构、正则表达式和库的使用。
摘要由CSDN通过智能技术生成


前言

实践是学习最好的老师。为了更加熟悉python开发,先从跟随前辈的教学博客,学习python爬虫开始。我会记录自己的学习过程,以及遇到的问题和如何解决的。如果能对小伙伴们有帮助就更好了。
参考链接:链接: link.
https://blog.csdn.net/bookssea/article/details/107309591


提示:以下是本篇文章正文内容,下面案例可供参考

一、安装需要的库

beautifulsoup4
re (python 现在应该是内置了这个库,不用自己安装)
xlwt
pycopy-urllib.request
pycopy-urllib.error 这两个安装的时候需要pip的版本是22.0.4, 但是我改了版本号之后还是不行,看了网上其他人的经验,直接安装urllib3,暂且这样安装,看看后续使用的时候会不会有问题。
后续做完了整个项目,证明这样安装是可以的。
sqlite3, 我在interpreter里没找到这个模块,暂且安装pysqlite3
在这里插入图片描述

二、开始编程

1.每个库的作用

1.beautifulsoup
主要功能是从网页抓取数据。通过解析文档为用户提供需要抓取的数据。其自动将输入文档转换为Unicode编码,输出文档转utf-8编码。支持python标准库中的HTML解析器。
首先要创建一个beautiful soup对象

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.正则表达式学习

特殊的字符序列,用于检查一个字符串是否与某种模式匹配。re模块提供Perl风格的正则表达式模式。
re.match 从字符串的起始位置开始匹配一个模式,如果不是起始位置匹配成功的话,返回None。
在这里插入图片描述
在这里插入图片描述
re.sub(pattern, repl, string, count, flags),用于替换字符串中的匹配项,string是原始字符串,也是要被替换的字符串,pattern是正则中的模式字符串,repl表示要替换的字符串。即在string中和pattern匹配的部分用repl代替

3.HTML学习

HyperText Markup Language超文本标记语言
制作web页面
HTML文档是一种可以用任何文本编辑器创建的ASCII码文件,只有以.html或.htm为后缀时,连兰奇才对文档中标签进行解释。以.txt为后缀时,浏览器对其并不解释。
在csdn上编写文档用的就是HTML
排版命令:
< I >表示斜体排版, < /I >表示斜体排版到此阶数。一般加一个/就表示上一个命令到此结束。

<!DOCTYPE html>
<html>                                 {HTML文档开始}
<head>                                 {首部开始}
<meta charset="utf-8">                 {对于中文网页需要使用 <meta charset="utf-8"> 声明编码,否则会出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码,则你需要设置为 <meta charset="gbk">}
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值