第一个Python爬虫程序丨Python基础实战系列(1)

最新推荐文章于 2024-03-15 20:59:29 发布

VIP文章互联网阿星

最新推荐文章于 2024-03-15 20:59:29 发布

阅读量2.5k

点赞数 6

文章标签：爬虫 python 数据挖掘网络爬虫 html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68103523/article/details/124654399

版权

提示：文末有福利！最新Python爬虫资料/学习指南>>戳我直达

文章目录

前言

本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。

下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。

话不多说，开练
在这里插入图片描述

获取网页html信息

1) 获取响应对象

向百度（http://www.baidu.com/）发起请求，获取百度首页的 HTML 信息，代码如下：

#导包,发起请求使用urllib库的request请求模块
import urllib.request
# urlopen()向URL发请求,返回响应对象,注意url必须完整
response=urllib.request.urlopen('http://www.baidu.com/')
print(response)

上述代码会返回百度首页的响应对象，其中 urlopen() 表示打开一个网页地址。注意：请求的 url 必须带有 http 或者 https 传输协议。

输出结果，如下所示：

<http.client.HTTPResponse object at 0x032F0F90

最低0.47元/天解锁文章

互联网阿星

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
第一个Python爬虫程序丨Python基础实战系列(1)

来跟着阿星做出你的第一个Python爬虫程序吧！使用 Python 内置的 urllib 库获取网页的 html 信息。在学Python爬虫？那你真得进来看看~【内有福利+1】
复制链接

扫一扫

互联网阿星 CSDN认证博客专家 CSDN认证企业博客

码龄2年

38: 原创

40万+: 周排名

197万+: 总排名

4万+: 访问

: 等级

747: 积分

63: 粉丝

173: 获赞

105: 评论

416: 收藏

私信

关注

热门文章

最新评论

下篇丨月薪3w还能天天摸鱼？再整10个Python小游戏【附源码】
锐火箭: 博主厉害！
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 我换一个url地址又可以了[code=python] import time from urllib import parse, request class TiebaSpider(object): # 初始化url属性 def __init__(self): # 定义变量前加self，代表在class 【TiebaSpider】里属于全局变量 self.url = 'https://tieba.baidu.com/f/search/res?isnew=1&kw=&{}' # 1.请求函数，得到页面，传统三步 def get_html(self, url): req = request.Request(url) res = request.urlopen(req) # windows会存在乱码问题，需要使用 gbk解码，并使用ignore忽略不能处理的字节 # linux不会存在上述问题，可以直接使用decode('utf-8')解码 html = res.read().decode('gbk', 'ignore') return html # 2.解析函数，此处代码暂时省略，还没介绍解析模块 def parse_html(self): pass # 3.保存文件函数 def save_html(self, filename, html): with open(filename, 'w') as f: f.write(html) # 4.入口函数 def run(self): name = input("请输入查询内容：") begin = int(input("请输入起始页数：")) stop = int(input("请输入终止页数：")) # 遍历页面数量，range不会取到结尾值，+ 1保证取到指定数字 for i in range(begin, stop + 1): [/code]
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 报错了
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: UnicodeEncodeError: 'latin-1' codec can't encode characters in position 5-6: ordinal not in range(256)
9个爬虫基础实战汇总+4个专业爬虫练手站推荐
miluk161: 期待博主更多的爬虫实战

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。