爬虫-python（一）初识爬虫

最新推荐文章于 2024-10-05 08:53:18 发布

荆棘谷三季稻

最新推荐文章于 2024-10-05 08:53:18 发布

阅读量193

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/XiaoDao147258369/article/details/112955088

版权

Python 爬虫环境配置 PyCharm GET请求

关键词由CSDN通过智能技术生成

开始写爬虫随笔，总结和分享技术，也希望对未来换工作有帮助。本系列随笔遵循两个原则，一是简洁，二是亲测可用。开干。

1. 环境准备

python 3.9.0

IDE：PyCharm

两者都可以从官网下载，安装简单，不再累述。

2. 最简单的爬虫

爬虫最基本的流程是发送请求（get/post）-- 获取响应结果 – 解析响应结果（xpath,css）-- 持久化存储(文件、库)。

打开PyCharm,选择File-NewProject ,新建1个项目，注意第一次使用的时候没有解释器，点击解释器右侧齿轮标志选择 Add Local, 然后选择本地安装的python.exe，创建1个解释器。

在这里插入图片描述

在location中填写路径，然后点击create按钮，新项目就创建好了。在项目路径下新建1个python文件，开始写代码。
在这里插入图片描述

代码非常简单，不需要说明了。

from urllib.request import urlopen

#发送请求，获取服务器给的响应
url = "http://www.baidu.com"
response = urlopen(url)

#读取结果,无法正常显示中文
html = response.read()

#进行解码操作，转为utf-8
html_decode = html.decode()

#打印结果
print(html_decode)