简单模块的函数为:
import requests
def getHTML(url):
try:
r = requests.get(url)
r.encoding = r.apparent_encoding
r.raise_for_status()
return r.text
except:
return "返回异常"
url表示需要爬取的网址。
我们可以用网站协议加IP地址加robots.txt访问网址关于爬虫的友好程度。
User-agent: * 表示对所有爬虫都有限制(如果对特定爬有限制会写出来)
Disallow: /baidu /下表示对此目录不可爬
如果有错误欢迎指点,毕竟我也是才入门。