Scrapy下载以及简单爬虫项目的创建

最新推荐文章于 2023-06-01 18:10:18 发布

bigdata7

最新推荐文章于 2023-06-01 18:10:18 发布

阅读量196

点赞数

分类专栏： # python爬虫文章标签： python

by顾辞嘤嘤怪

本文链接：https://blog.csdn.net/qq_43636709/article/details/110122343

版权

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Scrapy下载以及爬虫项目的创建

一.概述【图片传不了心态么得了】

1.使用python语言开发的爬虫组件，可以方便的从网站爬取需要的网页数据。

2.可以对网页元素进行解析并获取指定的数据，这些数据可以与实体当中的属性对应。【方便存储到数据库中】

3.Scrapy框架的组件由五部分组成：

（1）.爬虫引擎(Scrapy Engine)：用于控制整个爬取的流程

（2）.调度器(Scheduler)：将请求爬取的网址排列为一个队列

（3）.下载器(Downloader)：从请求的网址中下载网页内容

（4）.管道(Item Pipeline)：对爬取的数据进行处理（持久化-保存到数据库）

（5）.爬虫(Spider):爬取网页中需要的数据给item实体对象进行赋值

在这里插入图片描述

二.下载安装【这可以算是欧皇式安装了，有些人可能安装比较曲折一些，建议直接anconda整个安装完之后coda界面pip就好了，自己百度，教程很多，安装的方法好多，这个简单的是我们老师欧皇手气一遍过的，我就不一样了，装了好久，终于好了，有按这个方法装装不好的可以留言问我。】

1.在字符界面使用以下命令安装：【python版本默认装好了】

pip install scrapy

使用国内镜像安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

2.环境变量的配置{控制面板->系统和安全->系统->高级系统设置->环境变量->系统变量->path下添加自己python的安装路径和scripty路径}

3.pycharm中安装scrapy【file->setting->project interpreter->±>搜索框scrapy->下面的install package安装就欧克了】

安装成功！

三.使用scrapy创建爬虫项目【学过linux可能比较容易些，建议自己多练几遍】

1、创建爬虫项目

scrapy startproject 爬虫项目名称

示例如下:创建百度爬虫

Scrapy startproject prjbaiduspider

2、创建爬虫

cd 爬虫工程目录

输入

scrapy genspider 爬虫名称爬取的域名

注意:爬虫名称不能和工程名称一致，并且，爬虫名称必须是唯一的

示例如下:

修改爬虫文件

import scrapy class BaiduspiderSpider(scrapy.Spider): name = ‘baiduspider’#爬虫名称 allowed_domains = [‘baidu.com’] start_urls = [‘https://www.baidu.com/’] def parse(self, response): print(type(response)) title=response.xpath("//title/text()").get() print(title) pass

3、运行爬虫

Scrapy crawl 爬虫名称

注意：此命令必须再xxx.cfg同级目录下执行

4、再settings.py文件中将爬取的规则设置为False【好多设置成不许爬，改了这个就不用这么难受了】

\# Obey robots.txt rules

ROBOTSTXT_OBEY = False

settings.py文件中将爬取的规则设置为False【好多设置成不许爬，改了这个就不用这么难受了】

\# Obey robots.txt rules

ROBOTSTXT_OBEY = False

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。