爬虫的基本原理(Python3)

最新推荐文章于 2024-09-06 23:34:37 发布

此生小会

最新推荐文章于 2024-09-06 23:34:37 发布

阅读量618

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/cckavin/article/details/80554231

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一.获取网页

获取网页就是获取网页的源代码。Python本身提供的库有：urllib, request等。

示例：获取知识星球登录页

# -*- coding:utf-8 -*-
"""
获取知识星球登录页
"""
from urllib import request


URL = 'https://wx.zsxq.com/dweb/#/login'
res = request.urlopen(URL)  # 得到HTTPResponse对象
html_page = res.read().decode('utf8')  # 获取登录页面源代码，类型是字符串
print(html_page)

二.提取信息

网页获取源代码后就是分析网页，提取到我们想要的数据。提取数据主要有以下方法：

1.使用正则表达式提取信息。方法万能，但是复杂。

2. 使用相关提取数据的库提取信息。如Beautiful Soap, pyquery, lxml等。

示例：获取知识星球登录页“<title></title>”标签里面的内容。

# -*- coding:utf-8 -*-
"""
获取知识星球登录页
"""
from urllib import request
import re


URL = 'https://wx.zsxq.com/dweb/#/login'
res = request.urlopen(URL)  # 获取HTTPResponse对象
html_page = res.read().decode('utf8')  # 获取登录页面源代码，类型是字符串
print(html_page)

# 提取微信登录四个字
data = re.findall('<title>(.*)</title>', html_page)  # findall()总返回一个列表
print(data[0])  # 知识星球

三.保存数据

获取数据后为了方便以后使用，需要将数据保存。有以下几种保存方式：

1.保存为txt, json等文本。

2.保存到MySQL, MongoDB等数据库。

3.其他

示例：将title标签里面的内容保存到test.txt文本

# -*- coding:utf-8 -*-
"""
获取知识星球登录页
"""
from urllib import request
import re


URL = 'https://wx.zsxq.com/dweb/#/login'
res = request.urlopen(URL)  # 获取HTTPResponse对象
html_page = res.read().decode('utf8')  # 获取登录页面源代码，类型是字符串
print(html_page)

# 提取微信登录四个字
data = re.findall('<title>(.*)</title>', html_page)  # findall()总返回一个列表
print(data[0])  # 知识星球

# 将数据保存到test.txt文件
with open('test.txt', 'w', encoding='utf8') as out_file:  # 打开文件
    out_file.write(data[0])  # 将数据写入到文件
    out_file.close()    # 关闭文件