关于学习python爬虫视频的总结

1.python爬虫的概念
在大数据时代要获取所需信息需要通过编写网站程序,网络爬虫是一种程序,可以抓取网络上的一切数据,比如网站上的图片和文字视频,只要我们能访问的数据都是可以获取到的,python是可以按照规则去进行抓取网站上的所有有价值的信息,并且保存到本地,其实很多爬虫都是使用python开发的。
在这里插入图片描述
2.python爬虫的构架
其主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。
调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。
网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)。
网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。
应用程序:就是从网页中提取的有用数据组成的一个应用。
在这里插入图片描述
3.python视频学习心得
python是一门强大的计算机编程语言,它简洁灵活,易学,易读,可移植并且功能强大,有很好的前景,但是学习python也同样不容易,在我看来,要做到“开心,高效,踏实” 地把Python学好,有一样东西必不可少——兴趣!不管是学习什么,兴趣是最好的老师,找到自己感兴趣的东西,你将体验什么是自带buff加成!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值