python scrapy框架 简书_7、Python Scrapy框架,简单学习

工程搭建流程:

1、cmd: cd PyCharmProject(工程所在目标文件)

2、cmd: scrapy startproject movie

3、cmd: cd movie

4、cmd: scrapy genspider meiju meijutt.com

5、IDE(PyCharm) 打开工程:

items.py -- 该文件定义存储模板,用于结构化数据

import scrapy

class MovieItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

name = scrapy.Field()

meiju.py -- 存储实际的爬虫代码

import scrapy

from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):

name = 'meiju'

allowed_domains = ['meijutt.com']

start_urls = ['http://www.meijutt.com/new100.html']

# def start_requests(self):

# urls = ['http://www.meijutt.com/new100.html']

# for url in urls:

# yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

movies = response.xpath('//ul[@class="top-list fn-clear"]/li')

for each_movie in movies:

item = MovieItem()

item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]

yield item

pipelines.py --该文件定义数据的存储方式,可以是文件、数据库或其他

class MoviePipeline(object):

def process_item(self, item, spider):

with open("my_meiju.txt",'a') as fp:

fp.write(item['name'])

# fp.write(str(value=item['name'], encoding="utf-8"))

fp.write('\n------------\n')

setting.py -- 配置文件,可设置用户代理、爬取延时等

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline': 100}

6、cmd: cd movie

7、cmd: scrapy crawl meiju --log 或 scrapy crawl meiju

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值