01_爬虫基础知识和requests模块简介

本文介绍了爬虫的基础知识,包括爬虫的作用、分类和安全知识,以及爬虫的爬取流程。强调了前端基础,如HTML、CSS和JS的作用,并推荐了谷歌浏览器的开发者工具。此外,详细讲解了Python的requests模块,用于向网页发送请求并获取响应。最后,给出了一个简单的任务,使用requests获取百度热搜内容,提示了网络代理和正则表达式的应用。
摘要由CSDN通过智能技术生成

爬虫基础知识

1、爬虫简介:

  • 爬虫的作用:帮助我们把网站信息快速提取并保存
  • 爬虫的分类:
    • 通用爬虫
    • 聚集爬虫
  • 爬虫的安全知识:目前来说,无明确法律规定,但每个官网都有自己的爬虫协议(网址后面加/robots.txt)
  • 爬虫的爬取流程:
    • 1、获取网页
    • 2、提取信息
    • 3、保存数据

2、爬虫必须了解的前端基础:

  • HTML是超文本标记语言,主要负责写网页内容,CSS是用来装饰网页的,JS是用来写网页逻辑的。
  • HTML中有两类标签:
    • 1、一般标签:在标签内可以添加属性,在标签之间可以写其他标签或内容,如:h1标签
    • 2、自闭合标签:只有一个标签,只能在标签内加属性,如:img标签
  • 网页分类:静态网页(数据内容一般在HTML中),动态网页(通过js使网页连接数据库)
  • 谷歌浏览器的“开发者工具”无疑是最方便的打开方式:打开谷歌浏览器,右击选择检查
    在这里插入图片描述
  • 谷歌浏览器查看网页源代码也非常方便:如上&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值