爬虫-python(一) 初识爬虫

开始写爬虫随笔,总结和分享技术,也希望对未来换工作有帮助。 本系列随笔遵循两个原则,一是简洁,二是亲测可用。开干。

1. 环境准备

python 3.9.0

IDE:PyCharm

两者都可以从官网下载,安装简单,不再累述。

2. 最简单的爬虫

爬虫最基本的流程是 发送请求(get/post)-- 获取响应结果 – 解析响应结果(xpath,css)-- 持久化存储(文件、库)。

打开PyCharm,选择File-NewProject ,新建1个项目,注意第一次使用的时候没有解释器,点击解释器右侧齿轮标志选择 Add Local, 然后选择本地安装的python.exe,创建1个解释器。

在这里插入图片描述在这里插入图片描述

在location中填写路径,然后点击create按钮,新项目就创建好了。 在项目路径下新建1个python文件,开始写代码。
在这里插入图片描述

代码非常简单,不需要说明了。

from urllib.request import urlopen

#发送请求,获取服务器给的响应
url = "http://www.baidu.com"
response = urlopen(url)

#读取结果,无法正常显示中文
html = response.read()

#进行解码操作,转为utf-8
html_decode = html.decode()

#打印结果
print(html_decode)

右键py文件选择run ,就可以在控制台输出结果了。

在这里插入图片描述本次没有涉及到解析爬虫结果和持久化存储爬虫结果,后面会陆续讲到。

如有疑问欢迎留言。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值