我的第一个python爬虫


前言

今天想跟大家分享下我完成第一个python爬虫项目的过程,同时记录自己的“第一次”。我的第一个爬虫项目是在B站上学习的,讲的特别细。课程链接发在这啦,想走进Python的小伙伴可以点进去开始学习!

Python爬虫+数据可视化

其实,在自己没有了解过爬虫的时候,对于爬虫是没什么感觉的,但是在听课的过程中,慢慢的了解爬虫后,愈发的对其感到了兴趣。
感觉爬虫是一个好奇妙的东西,对于没有了解过爬虫的小伙伴,看完我这次分享后,希望对你有所感触哦。

当然,话不多说,大家一起跟我走进python爬虫的奇妙世界吧

一、python爬虫是什么?

如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,

沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;

从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;

原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

二、豆瓣电影TOP250排行榜信息爬取

1.发送请求

本次爬虫我们是需要得到豆瓣电影前250的电影排行信息
在爬取豆瓣网页时,我们第一步做的便是向网页发起请求

当然,发起请求会使用到request库,我们可以在设置中进行库的下载
具体流程如下:


图片中,点击设置找到python解释器,点击添加,下载所需要的库

首先给大家介绍下我们需要用到的一些库,可以提前进行下载

本次爬虫所需要的库主要是request:请求网页 ,BeautifulSoup,urllib:获取数据,re :正则提取数据 , xlwt,sqlite3: 保存数据

在这里插入图片描述
随后,便是对网页发送请求,并且获取网页数据啦~

在这里插入图片描述
代码先上,嘿嘿
我们通过request对网页进行请求,获取其数据,不过我们在访问网页时要对请求头做一个处理。我们可以在豆瓣网页上按F12键,找到源码中的请求头复制,放入代码中。模拟豆瓣网页对浏览器发起请求,也叫作用户代理。

当然我们在获取网页信息时可能也会存在一些乱码或者异常等,不过我们本次爬虫不涉及太复杂的内容啦。

通过上述操作我们便获取了网页的所有内容,接下来我们需要的便是获取我们想要的内容啦

2.获取数据

获取数据我们将会用到re库,本次爬虫项目使用的是正则提取,当然并不要求爬虫一定要用正则提取,用其他的也是可以的,在此就不进行过多讲述。

在这里插入图片描述
本次我们要爬取的内容是电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,相关信息。

正则表达式是一个难学的家伙,鉴于自己也没学明白,就不多跟大家介绍啦,免得误导大家,哈哈哈。所以直接看代码吧。

3.解析数据

在这里插入图片描述
这里就到了解析数据了,我截取了部分代码进行演示。一样就是通过正则表达式进行提取我们需要的数据。

补充说明:
在这里插入图片描述
当然在我们获取数据和解析数据函数中会有两个循环,第一个循环是对我们获取网页内容的循环,本来URL访问的只是一个网页,因为我们需要的是250的影片的内容,所以需要访问10次网页。
第二个循环是对获取数据的分析,同样的道理,我们对一个电影进行了解析,运用循环对所有电影内容进行提取。

4.保存数据

得到了我们需要的数据后,肯定是需要进行保存处理的。本次爬取讲到了两种储存方法
(1).储存在Excel表中
在这里插入图片描述
储存在Excel表中是相对简单的一种方式,我们首先便是需要调用xlwt库
然后创造对象,创造表,在写入数据,最后保存就可以了。在这里插入图片描述
最后的到的结果就是一个Excel表,具体内容如下图:
在这里插入图片描述

这就是第一种我们将数据储存在Excel表中的方式,只需要利用上述的几个流程即可

(2).储存在数据库中

在这里插入图片描述
储存在数据库里的话要用到sqlite3 上述代码是具体的方法
不过本次就不过多介绍此方法了,相对复杂
需要先连接数据库,用pycharm作为工具的小伙伴需要用专业版才能进行数据库保存。社区版是不支持的。
其次我们建表以及插是运用的sql语句,需要对数据库先进行学习哦
所以我们在这就不过多讲啦

总结

这是自己学习的第一个爬虫,当然是最简单的爬虫。
但也是自己写的一个个100多行代码的程序
可能是觉得来之不易吧,所以想要把它记录一下
同样,我还会继续学下去,学习更多的爬虫项目
也会在接下来继续分享我的学习之旅
希望看到这篇文章的小可爱们能够动动你们的小手,留下保贵的赞哦!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

测开小趴菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值