Python:Pycharm如何使用scrapy框架做爬虫?

因为入门python以来一直使用pycharm,所以对着黑白的DOS不习惯,所以此次来实现使用pycharm进行实现使用scrapy框架

①pip install scrapy(首先安装scrapy第三方包) 不会安装的:参考本人另一篇博文:https://blog.csdn.net/YiXiao1997/article/details/96345737

②新建第一个scrapy项目,先cd到想要的目录,然后输入:scrapy startproject PythonScrapy ,就建好了一个项目

打开新建的项目,然后如图:

在项目目录下新建一个start.py用来实现项目的启动

 然后在spider下新建一个Test_spider.py 其中name = "Test_spider"就是爬虫名字,所以在start.py下也启动这个名字

有些网站有反爬虫,所以需要伪装成浏览器,这个时候需要在settings.py中进行设置 ,修改DEFAULT_REQUEST_HEADERS={}

最后直接运行就可以了

 

 

  • 7
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
首先,你需要安装Scrapy框架,可以使用以下命令进行安装: ``` pip install scrapy ``` 接下来,你需要创建一个新的Scrapy项目,可以使用以下命令: ``` scrapy startproject project_name ``` 然后,你需要定义一个爬虫,在Scrapy项目的`spiders`目录下创建一个新的Python文件,例如`example_spider.py`,并在其中定义一个类,继承自`scrapy.Spider`类。在该类中,你需要定义以下几个属性: - `name`:爬虫的名称。 - `start_urls`:爬虫开始爬取的URL列表。 - `parse`:解析爬取到的响应数据的方法。 例如,下面是一个简单的爬虫示例: ```python import scrapy class ExampleSpider(scrapy.Spider): name = "example" start_urls = [ "http://quotes.toscrape.com/page/1/", "http://quotes.toscrape.com/page/2/" ] def parse(self, response): for quote in response.css('div.quote'): yield { 'text': quote.css('span.text::text').get(), 'author': quote.css('span small::text').get(), 'tags': quote.css('div.tags a.tag::text').getall(), } ``` 在上面的示例中,爬虫的名称为`example`,开始爬取的URL列表为`http://quotes.toscrape.com/page/1/`和`http://quotes.toscrape.com/page/2/`。在`parse`方法中,我们使用CSS选择器来提取响应中的数据,并使用`yield`关键字将其返回。 最后,你可以使用以下命令运行爬虫: ``` scrapy crawl example ``` 这将启动爬虫,并开始爬取数据。爬取到的数据将会被保存在Scrapy项目的默认输出目录中,通常为`./project_name/spiders`目录下的`output.json`文件中。你也可以使用其他输出格式,例如CSV或XML等。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值