Python实例：网络爬虫抓取豆瓣3万本书（5）

最新推荐文章于 2024-08-04 17:55:11 发布

肥宝Fable

最新推荐文章于 2024-08-04 17:55:11 发布

阅读量4.1k

点赞数 1

分类专栏： Python 肥宝的实验室文章标签： python 网络爬虫实例

本文链接：https://blog.csdn.net/u012175089/article/details/62419780

版权

肥宝的实验室同时被 2 个专栏收录

175 篇文章 18 订阅

订阅专栏

Python

41 篇文章 3 订阅

订阅专栏

第五步没有什么心的知识点。

直接看代码吧。

# -*- coding:utf-8 -*-
# 提取各标签列表页到excel
import time
import os.path
from tool.ExcelManager import listFiles,readExcel,writeExcel
from tool import TagManager 
start = time.clock()
putplace = 'books'
# 判断存放位置是否存在
if os.path.exists(putplace):
    pass
else: # 否则新建
    print('新建图书提取存放excel处：'+putplace)
    os.makedirs(putplace)
taglist = readExcel('web/booktag.xlsx') # 读取标签列表
del taglist[0]
# 对于每个标签
for tag in taglist:
    # 图书按照标签存放于文件夹中
    mulu=putplace+'/'+tag[0]
    if os.path.exists(mulu):
        pass
    else:
        os.makedirs(mulu)

    excelpath = mulu+'/'+tag[1]+'.xlsx'
    # 存在处理过的excel文件则跳过
    if os.path.exists(excelpath):
        print(excelpath+'已经存在')
        continue

    tagbooks = [['书籍名','URL入口','图片地址','出版信息','评价星数']] # 该标签所有书存放处
    path = 'web/'+tag[0]+'/'+tag[1] # 构造读取文件夹入口
    print('本地提取：'+path)
    # 查找目录下已经抓取的Html
    files = listFiles(path)
    # 遍历分析
    for i in files:
        file = path+'/'+i
        print('提取：'+file)
        content = open(file,'rb').read()
        books = TagManager.makeBookListInfo(content) # 提取图书列表
        tagbooks.extend(books)#把书放进去

    # 将信息写入本地文件中
    writeExcel(excelpath,tagbooks)
    print('写入成功：'+excelpath)
end = time.clock()
print("提取图书列表总共运行时间 : %.03f 秒" %(end-start))