导读
在学习python的小白大军里,相信不少人是奔着往爬虫方向走的。尤其是零基础的小伙伴,一套基本语法学习下来,发现离自己去写爬虫的目标好像依然有很长一段路,也有不少人放弃了。
其实,只要你把基础语法学好了,已经具备了编写一个原生爬虫的能力了,只是你自己不知道而已。今天给大家讲讲,怎么把自己学到的东西串联起来做个原生爬虫。
知识储备
- 1、import导入用法
- 2、for循环的运用
- 3、面向对象(知道怎么创建函数、类、以及实例化)
- 4、正则表达式(这是爬虫最重要的!)
开发工具
本教程基于python3.5及其以上版本
本教程以vscode开发(pycharm或其他工具也行)
一、找到想要爬取的网页
这里以熊猫直播为例子:
打开浏览器,输入网址,然后点击检查,查看当前页面的html标签
以熊猫tv的吃鸡板块为例,可以看到,目前所有主播的房间都有观看人数等数据在上面,那么我们要做的就是把“主播姓名”和“对应的观看人数”抓取下来