scrapy爬虫环境搭建

原创 2017年07月17日 18:24:41
  • 概述
  • 文件下载
  • 系统环境搭建和配置
  • 参考

概述
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
scrapy-splash:第三方中间件来提供JS渲染服务,解决由js动态生成的HTML页面问题。
文件下载
centos7下载(最新的docker服务依赖centos7),下载地址:http://www.centoscn.com/plus/download.php?open=2&id=8276&uhash=9c877d81a77da99fdd8e68d2
Python2.7下载,下载地址:https://www.python.org/ftp/python/2.7.13/python-2.7.13.amd64.msi
miniconda下载,下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-latest-Windows-x86_64.exe
系统环境搭建和配置
docker安装
安装docker依赖:yum install -y yum-utils device-mapper-persistent-data lvm2
配置docker源:yum-config-manager –add-repo https://download.docker.com/linux/centos/docker-ce.repo
安装docker,yum install docker-ce
启动docker服务,systemctl start docker
修改docker镜像,使用ustc的镜像,国外镜像网速无法用,参考:https://lug.ustc.edu.cn/wiki/mirrors/help/docker
Python2.7安装
miniconda安装(step by step即可,配置Python环境变量)
安装pycharm,下载地址:https://download.jetbrains.8686c.com/python/pycharm-professional-2017.1.4.exe ,使用license server方式认证,服务器地址使用:http://idea.imsxm.com/
scrapy安装(使用miniconda安装,否则使用pip安装会遇到很多问题):conda install -c scrapinghub scrapy
scrapy-splash安装,pip install scrapy-splash
centos7安装splash,docker pull scrapinghub/splash,启动splash服务,docker run -p 8050:8050 scrapinghub/splash
使用scrapy创建工程,cd D:/pythonDemo,scrapy startproject scrapydemo
使用pycharm打开scrapydemo工程
安装Python mysql驱动,adbapi方式:conda install mysql-python,mysql 驱动方式:conda install mysql-connector-python,如果无法安装,则需要更换源,打开windows用户目录,打开隐藏文件.condarc,添加如下内容:
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
保存后,使用命令查看源信息,conda config –show,如果源已经切换为tsinghua则配置成功
配置settings.py,添加如下配置:
SPLASH_URL = ‘http://192.168.137.130:8050/
SPIDER_MIDDLEWARES = {
‘scrapy_splash.SplashDeduplicateArgsMiddleware’: 100,
}
DOWNLOADER_MIDDLEWARES = {
# Engine side
‘scrapy_splash.SplashCookiesMiddleware’: 723,
‘scrapy_splash.SplashMiddleware’: 725,
‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’: 810,
# Downloader side
}
HTTPCACHE_STORAGE = ‘scrapy_splash.SplashAwareFSCacheStorage’
scrapy开发环境配置完成。
参考:
http://ae.yyuap.com/pages/viewpage.action?pageId=919763
https://lug.ustc.edu.cn/wiki/mirrors/help/docker
http://blog.csdn.net/u010440155/article/details/62422757
https://docs.docker.com/engine/installation/linux/docker-ce/centos/#install-using-the-repository
http://www.cnblogs.com/zhonghuasong/p/5976003.html
http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html
https://github.com/scrapy-plugins/scrapy-splash

在Mac上快速安装Scrapy,一键安装工具(不分别安装scrapy和twisted)

新配置了iMac 27,准备以它为主要的工作平台并控制分布式爬虫  总是在不同的设备上配置scrapy,于是需要一些较为快捷的方案 1.安装conda工具 Anaconda for OS X p...
  • xx1710
  • xx1710
  • 2016年04月11日 09:52
  • 1026

Pycharm+Scrapy安装并且初始化项目

前言Scrapy是一个开源的网络爬虫框架,Python编写的。最初设计用于网页抓取,也可以用来提取数据使用API或作为一个通用的网络爬虫。是数据采集不可必备的利器。安装pip install scra...
  • skullFang
  • skullFang
  • 2017年11月22日 20:28
  • 492

Intellij IDEA导入Python插件并创建工程

最近假期有空想学习一下python爬虫,百度一下发现Eclipse可以集成python插件,无奈十分麻烦,IDEA就不同了,引入python 插件十分简单,适合我这个小白 Intel...
  • JavaLixy
  • JavaLixy
  • 2017年08月13日 14:54
  • 4532

scrapy爬虫环境搭建

概述 文件下载 系统环境搭建和配置 参考 概述 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy...
  • lxf20054658
  • lxf20054658
  • 2017年07月17日 18:24
  • 402

python 3.5 成功安装 scrapy 的步骤

说明 之前在 window 10 (64) + python 3.5 (64) 环境下就已经成功安装了 scrapy,当然也费了不少周折。 由于近日将系统换回 windows 7 (64)...
  • My_Chen_Suo_Zhang
  • My_Chen_Suo_Zhang
  • 2016年09月18日 10:12
  • 2063

Python开发爬虫之从虚拟机安装到Scrapy环境搭建

对Scrapy框架的使用已有一段时间,现将个人经验作一个记录和分享。 由于在windows上安装Scrapy各种不成功,因此还是推荐在Linux上安装。一、虚拟机的安装下载 VMWare Works...
  • qwerty_bibabo
  • qwerty_bibabo
  • 2016年10月20日 23:37
  • 956

Windows Python3 Scrapy网络爬虫环境搭建

豆果爬虫Windows环境搭建安装需要的程序包 Python3.4.3 > https://pan.baidu.com/s/1pK8KDcv pip9.0.1 > https://pan.baidu...
  • qq_31573519
  • qq_31573519
  • 2017年07月03日 17:39
  • 1347

python3.6安装scrapy需要的组件包

  • 2017年07月06日 02:52
  • 11.31MB
  • 下载

Pycharm中的scrapy安装教程

Pycharm中的scrapy安装教程   在利用pycharm安装scrapy包是遇到了挺多的问题。在折腾了差不多折腾了两个小时之后总算是安装好了。期间各种谷歌和百度,发现所有的教...
  • junmoxi
  • junmoxi
  • 2018年01月23日 13:03
  • 88

基于scrapy和redis的分布式爬虫环境搭建

基于Scrapy,redis的分布式爬虫环境搭建及验证
  • hanchaoqi
  • hanchaoqi
  • 2016年04月29日 16:30
  • 1507
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:scrapy爬虫环境搭建
举报原因:
原因补充:

(最多只允许输入30个字)