继前几篇文章大量前期知识的铺垫之后,我们今天来一次模拟实践。
在之前的文章当中,我们从如何获取数据,解析数据,到储存数据,都一一进行了详细的解释,在这篇文章当中我们将前期所学的知识进行一次实践性的汇总。
从URL 开始,和 hashlib 进行访问,然后将解析、获取、压缩、和 Beautiful soup 进行引入 ,将 Redis 存储数据模块进行载入。
一个简单的爬虫程序开头就是如此,具体的代码如下:
from hashlib import sha1
from urllib.parse import urljoin
import pickle
import re
import requests
import zlib
from bs4 import BeautifulSoup
from redis import Redis
上面这些代码就是上面所说的所有模块引入后的样子。
有了模块代码以后,就可以开始模拟了。
爬虫就是要爬取信息,在目