开始写爬虫随笔,总结和分享技术,也希望对未来换工作有帮助。 本系列随笔遵循两个原则,一是简洁,二是亲测可用。开干。
1. 环境准备
python 3.9.0
IDE:PyCharm
两者都可以从官网下载,安装简单,不再累述。
2. 最简单的爬虫
爬虫最基本的流程是 发送请求(get/post)-- 获取响应结果 – 解析响应结果(xpath,css)-- 持久化存储(文件、库)。
打开PyCharm,选择File-NewProject ,新建1个项目,注意第一次使用的时候没有解释器,点击解释器右侧齿轮标志选择 Add Local, 然后选择本地安装的python.exe,创建1个解释器。
在location中填写路径,然后点击create按钮,新项目就创建好了。 在项目路径下新建1个python文件,开始写代码。
代码非常简单,不需要说明了。
from urllib.request import urlopen
#发送请求,获取服务器给的响应
url = "http://www.baidu.com"
response = urlopen(url)
#读取结果,无法正常显示中文
html = response.read()
#进行解码操作,转为utf-8
html_decode = html.decode()
#打印结果
print(html_decode)
右键py文件选择run ,就可以在控制台输出结果了。
本次没有涉及到解析爬虫结果和持久化存储爬虫结果,后面会陆续讲到。
如有疑问欢迎留言。