![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
lucky404
hello world
展开
-
安装scrapy(windows) 解决pip 无法安装scrapy
安装scrapy 这里安装是直接使用anaconda 来安装scrapy 什么是 anaconda?Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项 什么是conda?conda 是开源包(packages)和虚拟环境(environment)的管理系统。 packages 管理: 可以使用 c...原创 2018-03-02 13:28:27 · 2184 阅读 · 4 评论 -
scrapy 新建项目 以及项目结构介绍
使用命令 scrapy 命令行 来创建项目 startproject projectName项目结构如下图: 各个文件功能介绍scrapy.cfg: 项目的配置文件 items.py: 这个文件就类似于 orm 你可以定义一些字段在里面,比如我们做爬虫时要取html的标题, 链接,描述信息 就可以这样定义: import scrapy...原创 2018-03-02 13:35:38 · 300 阅读 · 0 评论 -
第一个scrapy 爬虫
安装完scrapy 之后,通过scrapy startproject ‘ProjectName’ 来新建项目, 然后 scrapy 就会自动帮我们创建项目现在是一个初始化的项目,首先我需要去抓取某个网站的信息,我需要抓取的信息定义到items.py里面 我们抓取的信息是 内容标题, 图片链接, 更新时间, 总页数, 照片组数因此我们的items.py 可以定义为如下# -*...原创 2018-03-02 15:23:06 · 326 阅读 · 0 评论 -
scrapy 使用pipelines 保存数据
scrapy 当爬虫获取到数据之后,如果你定义了items,并且settings 里面 启用了pipelines 那么你就可以在pipelines 里面 编写 连接数据库,插入数据的代码,你自己无需调用pipelines 里面的代码,是scrapy 框架自动去调用的例如:我的items 里面 定义了如下的代码 然后我的爬虫代码如下# 这里面写爬虫的逻辑import sc...原创 2018-03-02 22:44:18 · 4329 阅读 · 0 评论 -
scrapy-redis 分布式学习记录
学习了scrapy 爬虫框架 觉得这个框架做数据抓取很好用,但是不支持分布式。网上查了有大牛在它基础上进行改进出了一个scrapy-redis 的框架在网上找了很多教程,但是都没有说到基于scrapy-redis从 0 搭建分布式 爬虫框架的。 因此我决定自己从 0 开始搭建 并把整个过程记录下来 希望后来的人少走一些弯路(环境是基于Red Hat Enterprise Linux Serv...原创 2018-03-02 23:08:38 · 363 阅读 · 0 评论 -
python BeautifulSoup 获取豆瓣当前热映电影以及评分
使用urllib + Bs4#!/usr/bin/env python# _*_ coding:utf-8 _*_import urllib2from bs4 import BeautifulSoupdef agent(): # 构造http 请求头 headers = { 'HOST': 'movie.douban.com', ...原创 2018-03-03 14:24:56 · 1278 阅读 · 0 评论