#本文一切代码及理论均来自于郑秋生、夏敏捷二位老师主编《Python项目案例发 从入门到实践》一书,本人仅做微改。创作本文的目的仅为总结本人的学习过程和成果,借此巩固。可能存在许多疏漏之处,还请各位同道多多批评指正。
今天学的是调用百度API一个章节,百度大家都熟悉,现如今中国最大的互联网企业之一,坐拥大量曾经的“爆款”,甚至拥有堪称第一代中国现象级软件的“百度贴吧”,创造了无数出圈梗,几乎是一代人的网络记忆。
当然了,由于各种原因,百度现在的影响力大不如前,曾经的如日中天沦落到如今只剩一句“What's your problem”为人所知。
那么,在这样的背景下,百度该如何回到曾经的辉煌呢
跟我没啥关系TnT,赚了钱又不给我分红
但是作为一名刚踏入互联网圈的小白,对百度还是挺喜欢的———毕竟百度提供了那么多好用的API~
今天我们需要借用的就是百度的翻译API来了解Python的一个新库:urllib!
urllib库是Python最常用的,访问网页用的库,通过这个简约的库,便可以像访问本地文件一般,去访问网页,并抓取、读取和保存网页。怎么个意思呢,就是网页里头的东西,你不用打开网页,费个三五秒简单地敲打几下鼠标,只需要耗费半个多小时敲个几十行代码,测试个几分钟,不到一小时就完事了,是不是特别简便啊!(bushi)
urllib库和其他的Python库一样,延续了简单易懂的特点,主要的模块和函数都好用好记,主要用于操作URL的模块有以下几款:
urllib.request
#打开和读取URL
urllib.error
#包含urllib.request中包含的错误
urllib.parse
#包含解析URL的诸多方法
urllib.robotparser
#书中原话:用来解析robots.txt文本文件。它提供一个单独的robotfileparser类。通过该类的can—fetch()方法测试爬虫是否可以下载一个页面
先说 urllib.request 和 urllib.parse 两个大概是常用的模块着手,来对urllib库有一个整体的认识吧!
想要和一位姑娘搞对象,就要先走近她的灵魂;想要读取一个网站,就要先打开它的大门。那么Python是怎么“接近”一位姑娘的“灵魂”的呢?
urllib的第一个方法,便是urllib.requset.urlopen(不是openurl啊!!)
urlopen会返回resp