什么是爬虫?

举个例子,假设你想要买一只猫咪,于是你打开了类似58同城的同城网站,先点开宠物分类-猫,再选择一些条目,比如你想要的品种是蓝猫、价格在2000元到2500元、地区需要在浦东,最后网站就会给出一些筛选完的具体列表,通过一步步的点击最后获得了你想要的信息,如果想将这些信息进行对比,还得手动将一些参考数据摘抄下来,这一系列复杂的人工操作必将花费不少的时间。

但如果利用爬虫来收集这些数据,你只需要设定好主题和目标,比如[猫]、[蓝猫]、[2000元-2500元]、[浦东]等标签,爬虫就会从某个特定URL入手,自动的访问它所关联的URL,并且提取出你需要的数据。简单来说,爬虫就是自动访问互联网,并且提取价值数据的程序。

复杂点说:

爬虫是一段自动抓取互联网信息的程序。每个网页都有一个URL,从一个网页入口开始,通过各种URL的跳转形成一个相互指向的关系,最终可以形成一种网状结构,这就是互联网。理论上来说,一个庞大的网页项目,从入口开始,总能通过某种跳转路径到达项目系统中的任何一个网页,当我们人工的从网页上获取信息的时候,只能跟着步骤,一步一步的点击跳转,最终获取到我们希望得到的信息。

那零基础该如何学习爬虫呢?

想爬虫首先得有工具,用啥工具?当然是Python

当然,如果你使用和鲸K-Lab,请直接跳过以下Python的安装步骤。

  • 安装Python:

很多人会推荐 Anaconda(400M以上),但实际上原版 Python(26M)对新手来说就足够了,

直接进入Python官网进行下载即可,电脑系统不同具体安装方式也不一样。

Mac安装Python指南:Python学习:mac电脑安装python

Windows安装Python指南:可能是全网最详细的 Python 安装教程(windows)

Linux安装Python指南:如何在 Linux 上安装 Python | Linux 中

img

  • 安装编辑器:

目前主流的Python编辑器或者IDE有PyCharm、Jupyter Notebook、Spyder、Redeo等,每一种编辑器都有其优劣,这里有一份回答对Python编辑器进行了较为详细的介绍:世界上最好的Python编辑器是什么?

相比之下,Pycharm还是比较受欢迎,下载链接:https://www.jetbrains.com/pycharm/download/#section=windows,对新手而言,下载cummunity版本足够用了。下载完毕之后,根据提示一步一步安装就好。

img

如果你真的不会安装…请移步→:我连Python怎么安装都不会,能自学吗?

(歪个楼,插一段硬广~)

和鲸K-Lab无需安装,开箱即用,你值得拥有!

和鲸K-Lab是基于Jupyter Notebook研发的一款数据分析及AI开发协同工具,可直接在线运行,无需下载软件,这一点对初学者而言非常友好。K-Lab 目前可使用的主要为 Python 或 R 语言,同样含有各类工具包,如 Matplotlib、Seaborn 和 Pandas等等。

img

有了工具(Python),就该开始学习怎么使用了

应该有不少知友在学习爬虫的过程中都走了不少弯路,一听到要用Python爬虫,就认为开始着手把Python完全系统的去学习一遍,于是开启了漫长的Python学习时光,但往往还没有接触到爬虫,就把前面学的理论知识给忘了,毫无成就感,越来越看不到希望,最后只好放弃。

其实在了解Python的基本数据结构之后,就可以去试试怎么玩爬虫,通过fork别人的案例来了解爬虫的原理、操作方法、以及一些固定的语句,下面有一些适用于初学者学习的案例:

当然爬虫的过程很多时候都是不太顺利的。

比如你会发现自己的请求根本不会返回任何信息,那是因为你的爬虫被网站的反爬机制“盯”上了,所以就需要为它穿上一件headers衣服,伪装成真实用户。(终于知道别人的代码案例中的headers 信息是干啥的了…)当然这还是最基本的,更严格的IP限制、验证码、文字加密等等。

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; 
x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 
Safari/537.36"
}

爬虫过程这些问题可以通过fork别人的案例慢慢发现并解决,对症下药,效果永远最好

-END-


学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习、自动化测试带你从零基础系统性的学好Python!

👉[CSDN大礼包:《python安装工具&全套学习资料》免费分享]安全链接,放心点击

👉Python学习大礼包👈

在这里插入图片描述

👉Python学习路线汇总👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取哈)
在这里插入图片描述

👉Python必备开发工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python书籍和视频合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

👉Python面试刷题👈

👉Python副业兼职路线👈

在这里插入图片描述
在这里插入图片描述
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以点击链接免费领取或者保存图片到wx扫描二v码免费领取保证100%免费

👉[CSDN大礼包:《python安装工具&全套学习资料》免费分享]安全链接,放心点击

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值