python爬虫学习
前言
实践是学习最好的老师。为了更加熟悉python开发,先从跟随前辈的教学博客,学习python爬虫开始。我会记录自己的学习过程,以及遇到的问题和如何解决的。如果能对小伙伴们有帮助就更好了。
参考链接:链接: link.
https://blog.csdn.net/bookssea/article/details/107309591
提示:以下是本篇文章正文内容,下面案例可供参考
一、安装需要的库
beautifulsoup4
re (python 现在应该是内置了这个库,不用自己安装)
xlwt
pycopy-urllib.request
pycopy-urllib.error 这两个安装的时候需要pip的版本是22.0.4, 但是我改了版本号之后还是不行,看了网上其他人的经验,直接安装urllib3,暂且这样安装,看看后续使用的时候会不会有问题。
后续做完了整个项目,证明这样安装是可以的。
sqlite3, 我在interpreter里没找到这个模块,暂且安装pysqlite3
二、开始编程
1.每个库的作用
1.beautifulsoup
主要功能是从网页抓取数据。通过解析文档为用户提供需要抓取的数据。其自动将输入文档转换为Unicode编码,输出文档转utf-8编码。支持python标准库中的HTML解析器。
首先要创建一个beautiful soup对象
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.正则表达式学习
特殊的字符序列,用于检查一个字符串是否与某种模式匹配。re模块提供Perl风格的正则表达式模式。
re.match 从字符串的起始位置开始匹配一个模式,如果不是起始位置匹配成功的话,返回None。
re.sub(pattern, repl, string, count, flags),用于替换字符串中的匹配项,string是原始字符串,也是要被替换的字符串,pattern是正则中的模式字符串,repl表示要替换的字符串。即在string中和pattern匹配的部分用repl代替
3.HTML学习
HyperText Markup Language超文本标记语言
制作web页面
HTML文档是一种可以用任何文本编辑器创建的ASCII码文件,只有以.html或.htm为后缀时,连兰奇才对文档中标签进行解释。以.txt为后缀时,浏览器对其并不解释。
在csdn上编写文档用的就是HTML
排版命令:
< I >表示斜体排版, < /I >表示斜体排版到此阶数。一般加一个/就表示上一个命令到此结束。
<!DOCTYPE html>
<html> {HTML文档开始}
<head> {首部开始}
<meta charset="utf-8"> {对于中文网页需要使用 <meta charset="utf-8"> 声明编码,否则会出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码,则你需要设置为 <meta charset="gbk">}
<