Python爬虫之scrapy框架爬虫步骤

最新推荐文章于 2024-06-30 18:42:14 发布

勇气9601

最新推荐文章于 2024-06-30 18:42:14 发布

阅读量407

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mafang9601/article/details/81274722

版权

Python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

1.先创建一个文件夹用来运行整个爬虫项目

2.在PowerShell 中：cd 进入文件夹所在位置

3.通过scrapy 命令创建爬虫项目：

scrapy startproject 项目名

然后可以在所创建的文件夹下看到所创建的爬虫项目文件夹

（1）进入所创建项目：

cd .\qsquto(项目名)\

（2）创建爬虫文件之前看一下有哪些模板：

scrapy genspider -l

Available templates:

basic 普通爬虫模板

crawl 自动爬虫模板

csvfeed

xmlfeed

（3）创建自动爬虫文件：

scrapy genspider -t crawl auto(文件名) qiushibaike.com(域名)

（4）创建成功后，在PyCharm中打开该项目文件

3.在PyCharm中的相应py文件中进行修改

（1）items.py

把pass删掉

并增加相应内容，如：

content=scrapy.Field()

link=scrapy.Field()

（2）在爬虫文件auto中导入对应item

以及Request

from scrapy.http import Request

from qsquto.items import QsqutoItem

①修改 rules中的链接提取规律：

rules = (

Rule(LinkExtractor(allow=r'article'), callback='parse_item', follow=True),

)

②修改函数parse_item中的xpath表达式

it["content"]=response.xpath("//div[@class='content']/span/text()").extract()

it["link"]=response.xpath("//a[@class='contentHref']/@href").extract()

def parse_item(self, response):

i = QsqutoItem()

#i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

#i['name'] = response.xpath('//div[@id="name"]').extract()

#i['description'] = response.xpath('//div[@id="description"]').extract()

i["content"] = response.xpath("//div[@class='content']/span/text()").extract()

i["link"] = response.xpath("//a[@class='contentHref']/@href").extract()

return i

4、设置模拟浏览器去爬(在爬虫文件auto中)：

把start_urls注释掉

同时加入函数 def start_requests(self):

'''start_urls = ['http://qiushibaike.com/']'''

def start_requests(self):

ua={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0'}

yield Request('http://www.qiushibaike.com/',headers=ua)

5、再在settings.py中设置后续爬虫时的User-Agent

crtl+f 输入User-Agent 找到对应位置把User-Agent的注释消掉，并修改其User-Agent的值

6、在pipelines.py中做处理，如输出或写入文件

class QsqutoPipeline(object):

def process_item(self, item, spider):

for i in range(0,len(item["content"])):

print(item["content"][i])

print(item["link"][i])

return item

7、启动爬虫，注意在相应的文件夹下

scrapy crawl auto

#-*-coding:utf-8-*-

importscrapy

fromscrapy.linkextractorsimportLinkExtractor

fromscrapy.spidersimportCrawlSpider,Rule

fromscrapy.httpimportRequest

fromqsquto.itemsimportQsqutoItem

classAutoSpider(CrawlSpider):

name='auto'

allowed_domains=['qiushibaike.com']

start_urls=['http://qiushibaike.com/']

rules=(

Rule(LinkExtractor(allow=r'Items/'),callback='parse_item',follow=True),

)

defparse_item(self,response):

i={}

#i['domain_id']=response.xpath('//input[@id="sid"]/@value').extract()

#i['name']=response.xpath('//div[@id="name"]').extract()

#i['description']=response.xpath('//div[@id="description"]').extract()

returni

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目录

分类专栏

Python 25篇
Java 2篇
Web 16篇
数据库 5篇
C++ 3篇
Linux 3篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。