python scrapy框架爬取豆瓣

最新推荐文章于 2024-07-21 21:11:33 发布

bao7031

最新推荐文章于 2024-07-21 21:11:33 发布

阅读量127

点赞数

文章标签： json python

原文链接：http://www.cnblogs.com/liunanshou/p/9581087.html

版权

刚刚学了一下，还不是很明白。随手记录。

在piplines.py文件中将爬到的数据放到json中

class DoubanmoviePipelin2json(object):
#打开文件 open_spider 内部自带 不能自己起名
    def open_spidef(self,spider):
        self.json=open("doubantop250.json","w",encoding="utf-8")
        self.jsonfile.write("["+"/n")
        self.first=1
# 对数据进行跌代 放入json文件中
    def process_item(self,item,spider):
        if self ==1:
            movie=json.dumps(dict(item),ensure_ascii=False)
            self.jsonfile.write(movie)
            self.first=0
        else:
             movie=",\n"+json.dumps(dict(item),ensure_ascii=False)
            self.jsonfile.write(movie)
    return item
#关闭文件
    def close_spider(self,spider):
        self.jsonfile.write("\n"+"]")
        self.jsonfile.close()

写入xls中

 1 class DoubanmoviePipline2xls(object):
 2     def open_spider(self,spider):
 3         self.workbook=xlwt.Workbook(encoding="utf-8")
 4         self.worksheet=self.work.add_sheet("doubantop250")
 5         hearder=["电影排名","电影名"]
 6         for colsIndex in range(len(header)):
 7             worksheet.write(0,colsIndex,header[colsIndex])
 8         self.rows=1
 9     def process_item(self,item,spider):
10         movie=[item[k] for k in item]
11         for colsIndex in range(len(movie)):
12 　　　　　　　self.worksheet.write(self.rows,colsIndex,movie[colsIndex])]
13 　　　　　　　self.rows+=1
14　　 return item
15     def close_spider(self,spider):
16         self.rows=0
17         self.workbook.save("doubantop250.xls")

转载于:https://www.cnblogs.com/liunanshou/p/9581087.html

bao7031

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy框架爬取豆瓣

刚刚学了一下，还不是很明白。随手记录。在piplines.py文件中将爬到的数据放到json中class DoubanmoviePipelin2json(object):#打开文件 open_spider 内部自带不能自己起名 def open_spidef(self,spider): self.json=open("doubantop250...
复制链接

扫一扫