爬取目标网址:
“python的强大在于库多”——yo的海贼宣言
工预善其事,必先利器。现实世界里我们大不必重复的造轮子,航海时代的每个威风凛凛地大海贼都是能够熟练地应用各种爬虫库的。
“掌握urllib2,让它为你打开大航海时代的大门吧”——某个大海贼说
urllib2模块定义了一些功能和类,这些功能和类有助于在复杂的世界中打开URL(主要是HTTP),包括基本和摘要认证,重定向,cookies等等。
如下4行代码就可在命令行打印首页html内容:
from urllib import request
request