python爬虫(一)(使用Requsets模块)

这篇博客介绍了基于Python3的网络爬虫基础知识,使用Requests模块爬取本地IP地址。首先讲解了网络爬虫的概念,接着通过导入requests和chardet库,执行get请求并进行编码处理。然后,文章讨论了HTML解析的三种方式:正则表达式re、BeautifulSoup和XPath,并给出了爬取并保存IP地址到文本文件的示例代码。最后预告了后续将深入探讨BeautifulSoup和XPath的使用。
摘要由CSDN通过智能技术生成

是基于python3的爬虫,这篇的目标是爬本地的IP地址。先从最基本的开始。

网络爬虫:

什么是网络爬虫?假设网络是一个巨大的网,那么网络爬虫就是在这个网上爬,他能找到你所需要的信息。

本篇使用的Requests模块。

import requests,chardet
url="http://www.baidu.com"
ambition=requests.get(url)
ambition.encoding=chardet.detect(ambition.content)['encoding']
print(ambition.text)

开始是导入requests和chardet库,第二行设置的目标网址,第三行是get请求,第四行是使用chardet探测到的编码格式赋给ambition,encoding实现编码。第五行是输出ambition的文本形式。

一个在网页上快速查找对应位置代码的快捷键:ctrl+shift+c。

html解析:

html解析的方式有正则表达式re,BeautifulSoup,XPath(可能还有其他的我不知道)

1.正则表达式re

正则表达式由普通字符以及特殊字符足证的文字模式。

常用元字符:

元字符 含义
. 匹配除换行符以外的任意字符
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值