python爬虫（一）（使用Requsets模块）

最新推荐文章于 2024-04-22 12:04:16 发布

欸嘿嘿嘿

最新推荐文章于 2024-04-22 12:04:16 发布

阅读量790

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_20539533/article/details/80561632

版权

这篇博客介绍了基于Python3的网络爬虫基础知识，使用Requests模块爬取本地IP地址。首先讲解了网络爬虫的概念，接着通过导入requests和chardet库，执行get请求并进行编码处理。然后，文章讨论了HTML解析的三种方式：正则表达式re、BeautifulSoup和XPath，并给出了爬取并保存IP地址到文本文件的示例代码。最后预告了后续将深入探讨BeautifulSoup和XPath的使用。

摘要由CSDN通过智能技术生成

是基于python3的爬虫，这篇的目标是爬本地的IP地址。先从最基本的开始。

网络爬虫：

什么是网络爬虫？假设网络是一个巨大的网，那么网络爬虫就是在这个网上爬，他能找到你所需要的信息。

本篇使用的Requests模块。

import requests,chardet
url="http://www.baidu.com"
ambition=requests.get(url)
ambition.encoding=chardet.detect(ambition.content)['encoding']
print(ambition.text)

开始是导入requests和chardet库，第二行设置的目标网址，第三行是get请求，第四行是使用chardet探测到的编码格式赋给ambition,encoding实现编码。第五行是输出ambition的文本形式。

一个在网页上快速查找对应位置代码的快捷键：ctrl+shift+c。

html解析：

html解析的方式有正则表达式re，BeautifulSoup，XPath（可能还有其他的我不知道）

1.正则表达式re

正则表达式由普通字符以及特殊字符足证的文字模式。

常用元字符：