用python基础语法简单写个原生小爬虫获取主播排名(上)

本文面向Python初学者,教你如何利用基础语法编写原生爬虫。通过介绍如何找到爬取目标网页、识别HTML标签,并模拟HTTP请求,逐步展示爬取直播平台主播排名的过程。文章以熊猫直播吃鸡板块为例,详细解释了主播姓名和观看人数对应的HTML标签,强调了正则表达式在爬虫中的重要性,并预告教程将分为上、中、下三篇。
摘要由CSDN通过智能技术生成
导读

在学习python的小白大军里,相信不少人是奔着往爬虫方向走的。尤其是零基础的小伙伴,一套基本语法学习下来,发现离自己去写爬虫的目标好像依然有很长一段路,也有不少人放弃了。

其实,只要你把基础语法学好了,已经具备了编写一个原生爬虫的能力了,只是你自己不知道而已。今天给大家讲讲,怎么把自己学到的东西串联起来做个原生爬虫。

知识储备

  • 1、import导入用法
  • 2、for循环的运用
  • 3、面向对象(知道怎么创建函数、类、以及实例化)
  • 4、正则表达式(这是爬虫最重要的!)

开发工具

本教程基于python3.5及其以上版本
本教程以vscode开发(pycharm或其他工具也行)


一、找到想要爬取的网页

这里以熊猫直播为例子:

打开浏览器,输入网址,然后点击检查,查看当前页面的html标签
这里写图片描述

以熊猫tv的吃鸡板块为例,可以看到,目前所有主播的房间都有观看人数等数据在上面,那么我们要做的就是把“主播姓名”和“对应的观看人数”抓取下来

二、找到爬取目标的标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值