【class2】爬虫基础

1.回顾上一节课内容:

(1)爬虫爬取的原则是所见即所得,只能获取网页上有的内容。
(2)HTTPS是HTTP协议的安全版。
(3)“//”后面,“/”前面部分为主机名。

如果不记得大家可以去复习哦

Request模块的安装与导入

前面内容讲到,网页爬虫能够获取网页上的信息,要使用Python来爬取网页内容,需要安装requests模块,该模块可以用于获取网络数据。
由于requests模块是Python的第三方模块,需要额外安装,安装requests模块非常简单,在电脑终端输入代码:pip install requests

输入pip install requests的结果为:

小结:

具体步骤:

在终端中输入pip install requests,再按下回车键

ps:

安装之后,用import导入requests模块

即:import requests

注意】在自己电脑上安装模块后,导入requests模块时,可能会出现如下报错信息。
ModuleNotFoundError: No module named 'requests'
出现这种报错原因可能是:
模块未安装上或安装路径错误

总结:

请求网页内容

requests.get()函数可用于模拟浏览器请求网页的过程,在Python语言中使用该函数,就能够获取网页数据
get()函数中传入要访问网页的URL,就像浏览器打开URL一样。
例如,获取夜曲编程首页的链接就要写:
requests.get("https://np.baicizhan.com/")

步骤总结:

1.Import requests

2,url=“ http://+主机号+/”

3.response = requests.get(url)

4.print(response)

如何找到url:

1.打开chrome浏览器

2.右键选择{检查}

3.找到{network}

4.将链接复制过去,打开网页

5.找到名字为exemple-post-3的文件

6.点击文件,选择headers

7.找到request headers

8.查看方法:method:GET

获得状态码

步骤总结:

1.import requests

2.url =http://+地址+/

3.response = requests.get(url)

4.statusCode=reponse.status_code

5.Print(statuscode)//返回status:200表示网页打开正常

ps:可以使用if and else 来完善代码

框架总结:

Import requests

url=”http://+地址+/”

reponse=request.get(url)

if reponse.status_code ==200:

    content = response.text[:1000]

    print(content)

else

print(“请求数据失败”)

仔细观察刚刚输出的内容,不像我们日常接触的Python语言。
这是HTML语言,全称为HyperText Markup Language,超文本标记语言,它用来定义网页内容和结构
HTML是由一系列的标签组成,这些标签组合起来就是我们浏览器看到的网页。

以上就是作者今日所学,明天我们就开始了解HTML,wei后面的爬虫项目做准备,

大家一起加油!!

期待大家留言交流

  • 31
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值