【入坑Python网路爬虫第一步】了解基本学习思路以及路线（每周天更新）

luka努力学JAVA

已于 2022-02-28 14:08:19 修改

阅读量1.1k

点赞数 37

文章标签： python 爬虫学习

于 2022-02-27 22:11:28 首次发布

本文链接：https://blog.csdn.net/m0_62268772/article/details/123168146

版权

首先解释：作者在大一自学爬虫，在各种坑坑洼洼下，积累了很多经验，如果你和我一样，刚开始学python网络爬虫，在我看来首先你得需要一个大局观，把所有的框架架起来，这样学习爬虫就非常轻而易举。

网络数据采集（网络爬虫）在大数据深入人心的时代，网络数据采集作为网络、数据库与机器学习等领域的交汇点，已经成为满足个性化网络数据需求的最佳实践。搜索引擎可以满足人们对数据的共性需求，即“我来了，我看见”，而网络数据采集技术可以进一步精炼数据，把网络中杂乱无章的数据聚合成合理规范的形式，方便分析与挖掘，真正实现“我征服”。工作中，你可能经常为找数据而烦恼，或者眼睁睁看着眼前的几百页数据却只能长恨咫尺天涯，又或者数据杂乱无章的网站中满是带有陷阱的表单和坑爹的验证码，甚至需要的数据都在网页版的PDF和网络图片中。而作为一名网站管理员，你也需要了解常用的网络数据采集手段，以及常用的网络表单安全措施，以提高网站访问的安全性，所谓道高一尺，魔高一丈……一念清净，烈焰成池，一念觉醒，方登彼岸，本文试图成为解决这些问题的一念，让你茅塞顿开，船登彼岸。

python爬虫学习资料

链接：链接：https://pan.baidu.com/s/1JiLSUSgXI8EwHjqjsqvIUg
提取码：1024

1.python基本语法及面对对象的学习

学习资料：

链接：https://pan.baidu.com/s/1filGjaMxY1JUWiTxrQVLjQ
提取码：1024

python作为新时代的大方向，因为python的语法简单灵活，以及是一门面向对象的编程语言，受到了大部分程序员的青睐，所以说python就是网络爬虫的不二之选。

2.基础的爬取网站获取信息

网络爬虫的运行方式其实是十分简单，简单地说：获取网页 > 解析网页 > 储存数据。获取网页数据第一步为分析是静态网页还是动态网页，静态网页：一般扩展名为.html或.htm无后台数据库

动态网页：一般扩展名为.asp或.php有后台数据库。

首先要建立一个请求头，伪装，防止网站识别为爬虫，进行封杀，请求头包括User-Agent，cookies，refers。（不同网站利用不同请求头）

1.静态网页爬取

静态网页爬取十分简单，基本上就主要用python中request模块中的get请求。

import requests

url=requests.get("http://www.baidu.com")
print(url.text)

2.动态网页爬取

首先要了解一种新的技术——AJAX（ajax 全名 async javascript and XML(异步JavaScript和XML)）Ajax 是一种无需重新加载整个网页的情况下，能够更新部分网页的技术。
Ajax = 异步 JavaScript + XML。Ajax 是一种用于创建快速动态网页的技术。如果网页利用AJAX的技术该如何获取网页呢？

1）通过浏览器审查元素解析地址

2）通过selenium模拟浏览器抓取

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera，Edge等。这个工具的主要功能包括：测试与浏览器的兼容性——测试应用程序看是否能够很好得工作在不同浏览器和操作系统之上。不过现在来说seleni更多的利用在爬虫领域，模拟用户来获取网页。