【class2】爬虫基础

最新推荐文章于 2024-08-16 23:38:56 发布

fmc121104

最新推荐文章于 2024-08-16 23:38:56 发布

阅读量2.5k

点赞数 31

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmc121104/article/details/137258718

版权

1.回顾上一节课内容：

（1）爬虫爬取的原则是所见即所得，只能获取网页上有的内容。
（2）HTTPS是HTTP协议的安全版。
（3）“//”后面，“/”前面部分为主机名。

如果不记得大家可以去复习哦

Request模块的安装与导入

前面内容讲到，网页爬虫能够获取网页上的信息，要使用Python来爬取网页内容，需要安装requests模块，该模块可以用于获取网络数据。
由于requests模块是Python的第三方模块，需要额外安装，安装requests模块非常简单，在电脑终端输入代码:pip install requests

输入pip install requests的结果为：

小结：

具体步骤：

在终端中输入pip install requests，再按下回车键

ps：

安装之后，用import导入requests模块

即：import requests

注意】在自己电脑上安装模块后，导入requests模块时，可能会出现如下报错信息。
ModuleNotFoundError: No module named 'requests'
出现这种报错原因可能是：
模块未安装上或安装路径错误

总结：

请求网页内容

requests.get()函数可用于模拟浏览器请求网页的过程，在Python语言中使用该函数，就能够获取网页数据。
get()函数中传入要访问网页的URL，就像浏览器打开URL一样。
例如，获取夜曲编程首页的链接就要写:
requests.get("https://np.baicizhan.com/")

步骤总结：

1.Import requests

2，url=“ http：//+主机号+/”

3.response = requests.get(url)

4.print(response)

如何找到url：

1.打开chrome浏览器

2.右键选择{检查}

3.找到{network}

4.将链接复制过去，打开网页

5.找到名字为exemple-post-3的文件

6.点击文件，选择headers

7.找到request headers

8.查看方法：method：GET

获得状态码

步骤总结：

1.import requests

2.url =http://+地址+/

3.response = requests.get(url)

4.statusCode=reponse.status_code

5.Print（statuscode）//返回status:200表示网页打开正常

ps：可以使用if and else 来完善代码

框架总结：

Import requests

url=”http://+地址+/”

reponse=request.get(url)

if reponse.status_code ==200:

content = response.text[:1000]

print(content)

else：

print（“请求数据失败”）

仔细观察刚刚输出的内容，不像我们日常接触的Python语言。
这是HTML语言，全称为HyperText Markup Language，超文本标记语言，它用来定义网页内容和结构。
HTML是由一系列的标签组成，这些标签组合起来就是我们浏览器看到的网页。

以上就是作者今日所学，明天我们就开始了解HTML，wei后面的爬虫项目做准备，

大家一起加油！！

期待大家留言交流

关注

31
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
【class2】爬虫基础

前面内容讲到，网页爬虫能够获取网页上的信息，要使用Python来爬取网页内容，需要安装。注意】在自己电脑上安装模块后，导入requests模块时，可能会出现如下报错信息。以上就是作者今日所学，明天我们就开始了解HTML，wei后面的爬虫项目做准备，仔细观察刚刚输出的内容，不像我们日常接触的Python语言。（1）爬虫爬取的原则是所见即所得，只能获取网页上有的内容。安装之后，用import导入requests模块。（3）“//”后面，“/”前面部分为主机名。，url=“ http：//+主机号+/”
复制链接

扫一扫

博客等级

码龄1年

30
原创

800
点赞

431
收藏

595
粉丝

关注

私信

热门文章

最新评论

【class11】人工智能初步（人脸识别（1））
CSDN-Ada助手: 恭喜您发布第20篇博客！看到您探讨人工智能初步中的人脸识别话题，深感您的学习热情和勤奋。希望您能继续坚持创作，不断分享您的学习心得和见解。或许在下一篇博客中，可以深入探讨人脸识别技术的发展历程或者与其他领域的结合应用，这样不仅能够加深自己的理解，也能够为读者提供更加丰富的内容。期待您的下一篇精彩博客！祝您学习进步，创作愉快！
【class2】人工智能初步（自然语言处理）
fmc121104: 谢谢你的喜欢，大家一起进步
【class2】人工智能初步（自然语言处理）
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【class3】人工智能初步（词频统计）
CSDN-Ada助手: 恭喜您撰写了第12篇博客！看到您关于人工智能初步的词频统计文章，对于深入了解人工智能这一领域有很大帮助。建议您在接下来的创作中，可以尝试结合实际案例或者应用场景，更加生动地呈现人工智能的应用与发展，让读者更容易理解并产生共鸣。期待您更多优质内容的分享！
【class4】建立人工智能系统（1）
CSDN-Ada助手: 恭喜您发布了第13篇博客“【class4】建立人工智能系统（1）”！您的持续创作精神令人钦佩。在下一步的创作中，或许可以深入探讨人工智能系统的具体应用场景，或者分享一些实际操作经验，让读者更加深入了解这一领域。希望您能继续保持创作热情，期待您更多精彩的分享！祝您一切顺利！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。