系列文章目录
无敌python爬虫教程学习笔记(一)
无敌python爬虫教程学习笔记(二)
无敌python爬虫教程学习笔记(三)
无敌python爬虫教程学习笔记(四)
手刃一个小爬虫
前言
编写的一个爬虫小程序
基本的爬虫源码及改善
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
print(resp.read())#读取响应
运行结果:
结果其实是有中文的,需要解码,怎么解,其实可以观察到是utf-8。
我们加入解码,重新运行。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
print(resp.read().decode("utf-8"))#读取响应
结果也是显示中文。
但是还是有问题,大家看到的还是一堆看不懂的东西,和浏览器看到的还是有区别的。我们现在把他保存在一个文件中。
再次修改代码,让我们看的舒服点,能看懂。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
with open("mybaidu.html",mode="wb") as f:
f.write(resp.read())
print("over!!!")
提示操作成功,爬取到的内容放入了mybaidu.html中。
发现和刚刚区别不大,不着急我们点击run,运行这个HTML文件。
这就是一个最基础的爬虫框架,只需要改目标网址即可。