通过学习,我们可以使用request库自动爬取html页面,自动网络请求提交,网络爬虫排除标准,解析html页面,并了解正则表达式,能够提取页面关键信息,通过实战项目透彻掌握网络数据爬取和网页解析的基本能力。
文本工具ide 选用sublime txt
集成工具ide pycharm anaconda 我安装了anaconda 就用的这个
这里我尝试了爬取豆瓣的页面信息
import requests
def getHTMLText(url):
try:
r= requests.get(url, timeout=30)
r.raise_for_status()
r.encoding= r.apparent_encoding
return r.text
except:
return "报错报错"
if __name__ == "__main__":
url = "https://www.douban.com"
print(getHTMLText(url))
返回 报错报错