python scrapy框架简书_7、Python Scrapy框架，简单学习

最新推荐文章于 2024-05-02 17:41:07 发布

weixin_39633954

最新推荐文章于 2024-05-02 17:41:07 发布

阅读量47

点赞数

文章标签： python scrapy框架简书

工程搭建流程：

1、cmd: cd PyCharmProject(工程所在目标文件)

2、cmd: scrapy startproject movie

3、cmd: cd movie

4、cmd: scrapy genspider meiju meijutt.com

5、IDE(PyCharm) 打开工程：

items.py -- 该文件定义存储模板，用于结构化数据

import scrapy

class MovieItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

name = scrapy.Field()

meiju.py -- 存储实际的爬虫代码

import scrapy

from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):

name = 'meiju'

allowed_domains = ['meijutt.com']

start_urls = ['http://www.meijutt.com/new100.html']

# def start_requests(self):

# urls = ['http://www.meijutt.com/new100.html']

# for url in urls:

# yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

movies = response.xpath('//ul[@class="top-list fn-clear"]/li')

for each_movie in movies:

item = MovieItem()

item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]

yield item

pipelines.py --该文件定义数据的存储方式，可以是文件、数据库或其他

class MoviePipeline(object):

def process_item(self, item, spider):

with open("my_meiju.txt",'a') as fp:

fp.write(item['name'])

# fp.write(str(value=item['name'], encoding="utf-8"))

fp.write('\n------------\n')

setting.py -- 配置文件，可设置用户代理、爬取延时等

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline': 100}

6、cmd: cd movie

7、cmd: scrapy crawl meiju --log 或 scrapy crawl meiju

weixin_39633954

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy框架简书_7、Python Scrapy框架，简单学习

工程搭建流程：1、cmd: cd PyCharmProject(工程所在目标文件)2、cmd: scrapy startproject movie3、cmd: cd movie4、cmd: scrapy genspider meiju meijutt.com5、IDE(PyCharm) 打开工程：items.py -- 该文件定义存储模板，用于结构化数据import scrapyclass M...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。