最详细爬虫里零基础教程01——爬虫的基本介绍

本文介绍了爬虫的基本概念,包括其工作原理、学习爬虫的原因(数据获取效率、应用场景)、以及为什么要面对和应对反爬技术。讲解了爬虫的实现步骤,重点在于对初学者的基础引导。
摘要由CSDN通过智能技术生成


前言

如今,人工智能,大数据离我们越来越近,很多公司在开展相关的业务,但是人工智能和大数据中有一个东西非常重要,那就是数据,数据在一定程度上来说就是金钱,但是数据从哪里来呢?


一、爬虫是什么?

网络爬虫(网页蜘蛛、网络机器人),模拟客户端发送网络请求,接受请求对应的响应,一种按照一定规则自动抓取互联网信息的程序,理论上来说,是要是用户通过客户端(浏览器)能够做到的事情,爬虫都能够去做.

简而言之,爬虫是指一种自动获取互联网数据的程序,主要用于从网页中提取所需的信息。爬虫可以通过模拟浏览器的行为,访问网页、解析网页内容,并提取所需的数据。爬虫可以自动化地处理大量的网页,从而节省人力资源和时间。常见的应用包括网页抓取、数据采集、搜索引擎、价格比较、数据分析等。但是在使用爬虫时,需要遵守相关法律法规和网站的使用规定,避免侵犯他人的合法权益。

二、为什么要学习爬虫

1.数据的来源

  • 去第三方的公司购买数据(比如企查查)
  • 去免费的数据网站下载数据(比如国家统计局)
  • 通过爬虫爬取数据
  • 人工收集数据(比如问卷调查)

在上面的来源中:人工的方式费时费力,免费的数据网站上的数据质量不佳,很多第三方的数据公司他们的数据来源往往也是爬虫获取的,所以获取数据最有效的途径就是通过爬虫爬取。

2.分类

  1. 通用爬虫
    定义:通常指搜索引擎和大型Web服务提供商的爬虫(百度、搜狗等等、搜索引擎)。

2.聚焦爬虫
定义:针对特定网站的爬虫,定向的获取某方面数据的爬虫。

  • 累积式爬虫:从开始到结束,不断进行爬取,过程中进行去重操作。
  • 增量式爬虫:已下载的网页采取增量式更新和只爬取新产生的或者已经发生变化的网页的爬虫。
  • Deep web爬虫:(深层网络爬虫)不能通过静态链接获取的,隐藏在搜索表单后面,只有用户提交一些关键词才能获取的web页面。

3.应用场景

eg:某某公司并不是一家做新闻为主要工作的公司,但是为什么他们中的业务有这一方面的内容,那么这些内容又是从什么地方来的,总不能是耗时耗力自己进行搜集的,那么这样就有极大的可能就是利用了爬虫的技术来快速的搜集整理信息,这就是他们信息的主要来源。

简单总结来说就是:

  • 进行在网页或者是app上进行展示
  • 进行数据分析或者是机器学习相关的项目
  • 以及一些抢票小程序的制作

4.补充概念

  1. 反爬(Anti-crawling):是指一些网站为了防止被爬虫程序自动抓取数据,采取的一些措施和技术手段。常见的反爬措施包括:
  • 验证码:要求用户输入验证码,以确认其是真实用户而不是机器人。

  • IP限制:限制同一IP地址在一定时间内的请求次数或频率。

  • User-Agent检测:通过检测请求中的User-Agent信息,来判断请求是否来自爬虫程序。

  • 登录验证:要求用户登录才能访问网站内容,从而防止爬虫程序的访问。

  • 动态内容加密:通过对网页内容进行加密或混淆,使其对爬虫程序难以识别和解析。
    为了应对反爬措施,爬虫程序可能需要通过模拟浏览器行为、使用代理IP、随机生成User-Agent、解决验证码等手段来规避反爬。然而,应当强调在使用爬虫时,必须遵守相关法律法规和网站的使用规定,尊重网站的合法权益。

  1. 反反爬是指针对网站进行反爬虫的措施,采取一系列的技术手段来防止爬虫程序获取网站上的数据。通过反反爬,网站可以保护自己的数据安全,防止被恶意爬虫程序大量抓取和滥用。常见的方式包括:
  • 验证码:网站通过人机验证方式,要求用户输入验证码才能继续访问网站或进行某项操作。这是最简单、最常见的反爬虫手段之一。

  • IP封禁:网站监控访问频率和访问行为,对于异常高频率的IP地址,会将其封禁,限制其访问网站。

  • 请求头信息检测:网站检测用户请求中的头信息,如User-Agent、Referer等,如果发现异常或与正常浏览器请求不一致,可能会将其判断为爬虫程序并进行拦截。

  • Cookie验证:网站使用Cookie来验证用户身份,在用户访问时需要传递正确的Cookie信息,否则会被拦截。

  • JS渲染:将网页的数据通过JavaScript动态生成和加载,对于简单的爬虫程序来说,直接获取HTML源码无法获取到完整的数据。
    反反爬的方式多种多样,不同的网站可能采用不同的措施。对于爬虫程序来说,需要不断了解并适应这些反反爬的技术手段,才能有效地获取到需要的数据。

三、如何进行爬虫的实现?

对于新手来说,主要分为以下的几个步骤:

1.确认目标url地址
2.发送网络请求(模拟正常用户)得到对应的数据
3.提取出特定的数据
4.入库  保存:本地/数据库

详细内容敬请期待下一章节!


总结

由于考虑到是最初开始接触Python爬虫,因此我们在前面的几节会把重点放在一些基础概念的介绍方面,大家也可以通过这部分的学习多了解一些知识!

生活的道路一旦选定,就要勇敢地走到底,决不回头。

  • 49
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

莘薪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值