使用pyCharm用scrapy框架搭建并实现爬虫项目

  1. 安装Python

安装完成后,在cmd中输入python查看python版本

输入exit()退出

  1. 点击pyCharman-community-….exe安装社区版

点击next

点击Browse…选择存放位置,点击next

如图选择点击next

点击install,等待安装如图

  1. 基于Scrapy框架的网络爬虫开发流程
    1. 首先在cmd中,输入pip install pywin32在创建项目之前需要配置能够实现访问windows的API。 因为Windows是不允许程序直接访问硬件的,所以我们需要通过一个媒介,实现传递,这里就是我们经常能够用到的Pywin32模块,下面来给大家介绍基本的使用技巧,一起来详细了解下吧。 Pywin32安装: pip install pywin32
    2. 在使用scrapy之前需要安装Scrapy在cmd中输入pip install scrapy
    3. 可能还有一些操作忘记了
  2. 创建scrapy爬虫项目
    1. 打开pyCharm软件,创建一个项目取一个名字sina_spider
    2. 在终端中导入scrapy 依然输入pip install scrapy
    3. 进入打算新建爬虫的目录中,使用scrapy startproject sina_spider(这里就是新建爬虫项目的名字,要与上面新建项目名字相同),创建好的目录如下图没有sinaNews.csv

    1. 创建爬虫文件,包含要爬取的网站名,输入命令:scrapy genspider sinaSpider(爬虫文件夹名) www.sina.com.cn(待爬取的网站)

    1. 修改settings.py 文件的ROBOTSTXT_OBEY=False获取网站不希望被爬取的部分
    2. 编写parse()方法
  1. 运行爬虫程序并保存抓取数据
    1. 本例爬虫的文件名是sinaSpider.py保存格式是csv,找到项目名的目录,输入cmd打开cmd命令框输入命令scrapy crawl sinaSpider(爬虫文件名) -o sinaNews.csv(保存数据文件名和格式)

    1. 如果最后有如下错误
    2. 可按如图操作修改版本至22.10.0版本或其他
    3. 解决用excel查看乱码问题,首先用记事本打开csv文件点击另存为修改为所有文件和ANSI,重新用excel打开csv文件查看,问题解决。
  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值