python scrapy框架爬取豆瓣

刚刚学了一下,还不是很明白。随手记录。

在piplines.py文件中 将爬到的数据 放到json中

class DoubanmoviePipelin2json(object):
#打开文件 open_spider 内部自带 不能自己起名
def open_spidef(self,spider): self.json=open("doubantop250.json","w",encoding="utf-8") self.jsonfile.write("["+"/n") self.first=1
# 对数据进行跌代 放入json文件中 def process_item(self,item,spider): if self ==1: movie=json.dumps(dict(item),ensure_ascii=False) self.jsonfile.write(movie) self.first=0 else: movie=",\n"+json.dumps(dict(item),ensure_ascii=False) self.jsonfile.write(movie) return item
#关闭文件
def close_spider(self,spider): self.jsonfile.write("\n"+"]") self.jsonfile.close()

写入xls中

 1 class DoubanmoviePipline2xls(object):
 2     def open_spider(self,spider):
 3         self.workbook=xlwt.Workbook(encoding="utf-8")
 4         self.worksheet=self.work.add_sheet("doubantop250")
 5         hearder=["电影排名","电影名"]
 6         for colsIndex in range(len(header)):
 7             worksheet.write(0,colsIndex,header[colsIndex])
 8         self.rows=1
 9     def process_item(self,item,spider):
10         movie=[item[k] for k in item]
11         for colsIndex in range(len(movie)):
12        self.worksheet.write(self.rows,colsIndex,movie[colsIndex])]
13        self.rows+=1
14   return item
15     def close_spider(self,spider):
16         self.rows=0
17         self.workbook.save("doubantop250.xls")

 

转载于:https://www.cnblogs.com/liunanshou/p/9581087.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用PythonScrapy框架可以非常方便地爬取豆瓣电影的数据。下面是一个简单示例: 首先,我们需要创建一个新的Scrapy项目。在命令行中执行以下命令: ``` scrapy startproject douban_movies ``` 接下来,进入项目目录: ``` cd douban_movies ``` 然后,我们可以创建一个名为`movies`的Spider来定义我们想要爬取的网页和处理数据的逻辑。在项目目录下执行以下命令: ``` scrapy genspider movies movie.douban.com ``` 这会在`spiders`目录下生成一个名为`movies.py`的文件。我们可以在这个文件中编写爬虫代码。 首先,我们需要定义要爬取的网址,在`start_urls`中添加豆瓣电影的首页地址: ```python start_urls = ['https://movie.douban.com/'] ``` 然后,我们需要定义如何解析网页和提取数据。我们可以使用XPath或CSS选择器来定位需要的数据。这里以使用XPath为例: ```python def parse(self, response): # 提取电影名字 movie_names = response.xpath('//div[@class="hd"]/a/span/text()').extract() for name in movie_names: print(name) # 提取评分 scores = response.xpath('//span[@class="rating_num"]/text()').extract() for score in scores: print(score) ``` 在上面的代码中,我们使用XPath选择器来提取电影的名字和评分,并打印出来。你可以根据需要修改这部分代码,比如将数据保存到数据库或文件中。 最后,在命令行中执行以下命令来运行爬虫: ``` scrapy crawl movies ``` 以上就是使用PythonScrapy框架爬取豆瓣电影的简单示例。你可以根据自己的需求进一步扩展和优化这个爬虫,比如添加翻页功能或处理更复杂的网页结构。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值