针对小白的 web crawler 基础

星月是差生

已于 2022-12-03 20:47:33 修改

阅读量1.6k

点赞数 16

文章标签： python 爬虫 mysql 数据库

于 2022-12-03 20:36:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Steal_knowledge/article/details/128157485

版权

本文是针对初学者的Python爬虫基础教程，涵盖爬虫介绍、HTTP协议、URL解析、使用requests模块发送请求、响应对象处理、正则表达式以及数据存储到MySQL数据库的方法。讲解了HTTP请求与响应、网络抓包、Cookie与User-Agent的使用，帮助读者快速入门网络爬虫开发。

摘要由CSDN通过智能技术生成

前言

彦祖们啊，博主们啊，还有“君子们”啊，我们又见面了，对于前面的那些文章大部分都因某些原因都鸽了吧~ 鸽了吧~ 。（后期会整体慢慢补充）

一、爬虫介绍

爬虫又称网络蜘蛛、网络机器人，主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

爬虫可分为两大类：通用网络爬虫、聚焦网络爬虫

通用网络爬虫 ：是搜索引擎的重要组成部分，百度搜索引擎，其实可以更形象地称之为百度蜘蛛（Baiduspider），它每天会在海量的互联网信息中爬取信息，并进行收录。当用户通过百度检索关键词时，百度首先会对用户输入的关键词进行分析，然后从收录的网页中找出相关的网页，并按照排名规则对网页进行排序，最后将排序后的结果呈现给用户。通用网络爬虫需要遵守robots协议，网站通过此协议告诉搜索引擎哪些页面可以抓取，哪些页面不允许抓取。
聚焦网络爬虫：是面向特定需求的一种网络爬虫程序。聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选，尽量保证只抓取与需求相关的网页信息。这也很好地满足一些特定人群对特定领域信息的需求。

最低0.47元/天解锁文章

星月是差生

关注

16
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
针对小白的 web crawler 基础

针对与小白的 web crawler 基础爬虫基础笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。