Python实例:网络爬虫抓取豆瓣3万本书(5)

第五步没有什么心的知识点。

直接看代码吧。

# -*- coding:utf-8 -*-
# 提取各标签列表页到excel
import time
import os.path
from tool.ExcelManager import listFiles,readExcel,writeExcel
from tool import TagManager 
start = time.clock()
putplace = 'books'
# 判断存放位置是否存在
if os.path.exists(putplace):
    pass
else: # 否则新建
    print('新建图书提取存放excel处:'+putplace)
    os.makedirs(putplace)
taglist = readExcel('web/booktag.xlsx') # 读取标签列表
del taglist[0]
# 对于每个标签
for tag in taglist:
    # 图书按照标签存放于文件夹中
    mulu=putplace+'/'+tag[0]
    if os.path.exists(mulu):
        pass
    else:
        os.makedirs(mulu)

    excelpath = mulu+'/'+tag[1]+'.xlsx'
    # 存在处理过的excel文件则跳过
    if os.path.exists(excelpath):
        print(excelpath+'已经存在')
        continue

    tagbooks = [['书籍名','URL入口','图片地址','出版信息','评价星数']] # 该标签所有书存放处
    path = 'web/'+tag[0]+'/'+tag[1] # 构造读取文件夹入口
    print('本地提取:'+path)
    # 查找目录下已经抓取的Html
    files = listFiles(path)
    # 遍历分析
    for i in files:
        file = path+'/'+i
        print('提取:'+file)
        content = open(file,'rb').read()
        books = TagManager.makeBookListInfo(content) # 提取图书列表
        tagbooks.extend(books)#把书放进去

    # 将信息写入本地文件中
    writeExcel(excelpath,tagbooks)
    print('写入成功:'+excelpath)
end = time.clock()
print("提取图书列表总共运行时间 : %.03f 秒" %(end-start))


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值