是基于python3的爬虫,这篇的目标是爬本地的IP地址。先从最基本的开始。
网络爬虫:
什么是网络爬虫?假设网络是一个巨大的网,那么网络爬虫就是在这个网上爬,他能找到你所需要的信息。
本篇使用的Requests模块。
import requests,chardet
url="http://www.baidu.com"
ambition=requests.get(url)
ambition.encoding=chardet.detect(ambition.content)['encoding']
print(ambition.text)
开始是导入requests和chardet库,第二行设置的目标网址,第三行是get请求,第四行是使用chardet探测到的编码格式赋给ambition,encoding实现编码。第五行是输出ambition的文本形式。
一个在网页上快速查找对应位置代码的快捷键:ctrl+shift+c。
html解析:
html解析的方式有正则表达式re,BeautifulSoup,XPath(可能还有其他的我不知道)
1.正则表达式re
正则表达式由普通字符以及特殊字符足证的文字模式。
常用元字符:
元字符 | 含义 |
. | 匹配除换行符以外的任意字符 |