Python入门到精通【精品】第十章 - 爬虫
1. 爬虫准备
1.1. 爬虫简介
爬虫,也叫网络数据获取,是指通过运行代码(这里指的是Python代码)获取指定网页的内容并筛选出自己想要的数据的过程。本篇文章将通过一个实战的例子带你一步步学会如何爬取一个网页的数据并解析其内容。你也可以结合前面学到的Python操作Excel的章节将获取到的数据存储到Excel中。
1.2. 爬取一个网页的整体思路
1.2.1. 基础概念
网页:网页是构成网站的基本元素,是承载各种网站应用的平台.
例:百度首页
URL:在WWW上,每一信息资源都有统一的且在网上唯一的地址.
例:百度首页
https://www.baidu.com/
网页源代码:一个网页的HTML文件内容。
例:谷歌浏览器打开百度首页,右键,查看网页源代码