一只入门级python爬虫

最新推荐文章于 2024-09-15 22:31:42 发布

雨飘香

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量6.4w

点赞数 2

分类专栏：爬虫文章标签： python 数据抓取爬虫 jsoup

本文链接：https://blog.csdn.net/weixin_43247256/article/details/107228277

版权

本文介绍了Python爬虫的基础知识，包括爬虫的定义、组件和流程，并通过实例展示了如何使用requests库构建采集器，以及利用正则表达式解析网页内容。文章以爬取豆瓣TOP250电影为例，详细解释了如何提取所需数据并保存到文本文件，同时也提及了爬取更多页面的url规律。最后提到进阶话题如认证、cookie和动态内容的爬取。

摘要由CSDN通过智能技术生成

前言

本文目的：根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。

基础

爬虫的定义：定向抓取互联网内容（大部分为网页）、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理，为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。
在这里插入图片描述

代码

第一步：写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先，构造一个http的header，里面有浏览器和操作系统等信息。如果没有这个伪造的header，可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后，用requests库的get方法获取url内容。如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok，说明页面不能正常访问，将函数返回值设置为特殊字符串或代码。

import requests

def get_page(url):
	headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	    return response.text
	else:
		return 'GET HTML ERROR !'