python urllib 静态网页的爬取

最新推荐文章于 2023-09-12 11:06:13 发布

掉进大海里over

最新推荐文章于 2023-09-12 11:06:13 发布

阅读量372

点赞数 1

分类专栏： python 文章标签： urllib python

本文链接：https://blog.csdn.net/weixin_39695028/article/details/80252192

版权

本文介绍了使用Python的urllib库进行静态网页爬取的基本步骤：通过URL读取网页，解析文本数据，利用正则表达式提取所需信息，并讲解了数据的存储和简单处理，包括使用numpy和pandas进行数据操作。

摘要由CSDN通过智能技术生成

python之前有urllib和urllib2，在我接触到时已经合并，所以暂时不清楚之间的差别。现在只有urllib

我暂时了解到的，爬虫的基本逻辑：

1、通过url读取到网站网页

2、将网站的文本数据读取

3、通过正则表达寻找数据

4、保存需要的数据

5、数据处理，这里不是爬虫的内容

所以爬虫入门就4个步骤：

1、通过url打开网站

from urllib import request
url = "www.baidu.com"
url_open = request.urlopen(url)

2、将网站数据读取

url_text = url_open.read()
url_text = url_text.decode("gbk") #如果有需要，将编码改变

3、用正则表达式获取数据

import re
"""
正则表达式太高深，我没学过，只知道.*？
aaa表示正则需要寻找内容的前半部分，bbb表示后边需要匹配的内容
（.*？）是要获取的数据部分
"""
reg = r'aaaaaa(.*?)bbbbbb' 
'''re.S是表示同时获取换行符'''
context = re.findall(reg, url_text, re.S)

4、存储数据

存储数据有两种方式，一个是往数据库存&#

最低0.47元/天解锁文章

掉进大海里over

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python urllib 静态网页的爬取

python之前有urllib和urllib2，在我接触到时已经合并，所以暂时不清楚之间的差别。现在只有urllib我暂时了解到的，爬虫的基本逻辑：1、通过url读取到网站网页2、将网站的文本数据读取3、通过正则表达寻找数据4、保存需要的数据5、数据处理，这里不是爬虫的内容所以爬虫入门就4个步骤：1、通过url打开网站from urllib import requesturl = "www.ba...
复制链接

扫一扫