写在前面:
本文是对自身python爬虫学习的一个总结。
一是尝试将爬虫知识根据自己的知识体系进行重新调整总结。
二是可以为其他想了解爬虫知识的同学,对爬虫有一个初步的认知。
python爬虫的主要工作流程
通过爬虫获取网络数据,主要工作有两个步骤:
一是编写请求代码;
二是编写获取数据代码。
这两个步骤最难的是第一步,在所有的请求中,获取真正的请求url是爬虫的核心工作。
而对请求返回的数据进行解析以获得需求数据则需要熟练掌握一到两种工具即可。
注:
利用python编写网络爬虫程序,需要一定的python基础。如果时间紧张无法快速补齐python基础,则下边的操作一定需要了解
1、掌握python基础语法规则
python基础语法
https://www.runoob.com/python3/python3-basic-syntax.html
2、掌握python字符串的拼接
python字符串的拼接
这部分其实包含很多内容,
数值、字符串、布尔值等,
这边在爬虫中我自己统一用字符串来表示。
在之后的爬虫中,
主要有这么几种应用场景
(了解更多python知识之后,
就会发现主要是字符串的格式化):
-1 通过对url地址添加数字,实现爬虫的翻页。
-2 通过对url地址进行拼接,获得完整url地址
-3 对url参数进行补齐
学习参考地址:
https://www.runoob.com/python3/python3-string.html
3、掌握列表、字典的使用
列表和字典是python中非常重要且常用的功能和工具。
对于列表和字典,需要掌握:
-1 列表和字典的基础性质
-2 列表和字典的增加值和取值方式
-3 如何通过for循环,对列表、字典中的值进行输出
学习参考地址:
列表: https://www.runoob.com/python3/python3-list.html
字典: https://www.runoob.com/python3/python3-dictionary.html
4、掌握文件的读、写、添加操作
爬虫最终需要将获取的数据进行持久化的保存。
初步可以先掌握对基本文件的读取和写入,
后续可以了解更多的持久化存储方式,如数据库存取
学习参考地址:
https://www.runoob.com/python3/python3-file-methods.html