算法太难,直接来学爬虫
第一个爬虫程序
爬取这个网站的所有电影名称,评分,类型,内容简介,封面(只是一个网址)和上映时间
网站在上面
所谓爬虫,就是对于一个网站的爬取,我们先关注url,对于这个网站分为两个,列表页和详情页,因此需要函数去分别提取这两个页的url,所对应的html代码,并且去解析它,最后得到所要的结果。
因此第一个我们要做的就是对于页面的爬取,以下是代码
# 页面爬取方法 def scrape_page(url): logging.info('scraping %s...' , url) try: response = requests.get(url) if response.status_code == 200: return response.text logging.error('get invalid status code %s while scraping %s', response.status_code, url) # 异常处理 except requests.RequestException: # exec_info 可以打印出错误信息 logging.error('error occurred while scraping %s' , url , exec_info = True)
这个函数所实现的就是,对于一个网址,去爬取它的html代码,我们直接使用get请求即可,如果状态码是200,那么直接返回所对应网址的html代码,否则输出错误日志
然后需要的就是,对于一种网页进行爬取 ,先定义列表页
# 列表页的爬取方法 # page 接受page参数 def scrape_index(page): # https://ssr1.scrape.center/page/2 index_url = f'{BASE_URL}/page/{page}' return scrape_page(in