2019-12-17 爬网页11-scrapy初学爬猫眼(requests+lxml+fake_useragent+multiprocessing)

没人不认识我

于 2020-12-28 11:14:12 发布

阅读量147

点赞数

分类专栏： python 安全 IT 文章标签：网站安全

本文链接：https://blog.csdn.net/weixin_42555985/article/details/103574686

版权

本文介绍了使用Scrapy框架爬取猫眼电影数据的初步步骤，包括Scrapy模块的下载、项目创建及应用生成。通过scrapy startproject命令创建项目，然后通过scrapy genspider命令生成爬虫，适用于Python 2.7环境下的Windows 10用户进行网站数据抓取。

摘要由CSDN通过智能技术生成

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

自学参见
英文网站
 中文网站

我的环境，Win10中文+py2.7

step1.scrapy模块下载

pip install scrapy

step2.创建项目

命令格式如下

scrapy startproject 项目名称

尝试执行一下

C:\>scrapy startproject mySpider
New Scrapy project 'mySpider', using template directory 'c:\python27\lib\site-packages\scrapy\templates\project', created in:
    C:\mySpider

You can start your first spider with:
    cd mySpider
    scrapy genspider example example.com

执行完这一步后，自动创建主目录mySpider，在主目录中scrapy会创建以下内容

mySpider\
	scrapy.cfg  -->项目的主配置信息。（真正爬虫相关的配置信息在setti

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

没人不认识我

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫，看完发小阿水决心去城发展，村花都留不住

林高禄

12-29

4282

爬虫1：爬虫基础入门1-1：爬虫简介1-2：爬虫是违法的吗1-3：http和https协议1-4：第一个爬虫程序-requests模块1-5：乱码问题2：requests模块深入学习2-1：图片和视频数据的爬取2-2：传参2-3：UA伪装2-4：UA伪装头部信息模块UserAgent2-5：cookie2-6：代理2-7：验证码3：巩固练习3-1：爬取豆瓣电影分类排行榜 - 情色片3-2：获取淘宝首页的搜索提示3-3：获取我房网新房列表的价格走势数据3-4：获取爱奇艺用户的播放记录4：数据解析4-1：jso

爬虫案例：requests库,fake_useragent库,lxml库爬取电影天堂，一个大型的分类，可以向上进阶为全站爬虫

Programmer_huangtao的博客

01-26

905

遇到的问题： 1. detail_urls = html.xpath("//table[@class='tbspan']//a/@href")，得到的url，为半成品，需要后期补充。 2.try: 。。。。。 except IndexError: pass 电影天堂有假的电影标题，就是只有标题，没有电影详细信息。 3.("◎主　　演")以下信息为...

参与评论您还未登录，请先登录后发表或查看评论

通过一次爬取图片了解scrapy，multiprocessing与Threading的笔记

Seboooo的博客

12-18

575

概要：目标网址：http://www.maotiao.com，爬取目标：获得每个板块下所有图片的url地址并写入json文件(本次爬虫不在pipe管道中下载图片）,获得所有网址后利用多线程来下载这些图片到本地；分析网站：打开网站后，可以发现在主界面 &amp;gt;&amp;gt; 首页一行后有八个版块 &amp;gt;‘性感…’，’西西…‘,等等;随便点击进入一个版块后就可浏览到图集列表（每页有20个...

爬虫代码详解Python多线程、多进程、协程

早起Python

04-07

804

一、前言很多时候我们写了一个爬虫，实现了需求后会发现了很多值得改进的地方，其中很重要的一点就是爬取速度。本文就通过代码讲解如何使用多进程、多线程、协程来提升爬取速度。注意：我们不深入介绍理论和原理，一切都在代码中。二、同步首先我们写一个简化的爬虫，对各个功能细分，有意识进行函数式编程。下面代码的目的是访问300次百度页面并返回状态码，其中parse_1函数可以设定循环次数，每次循环将当...

Python爬虫 multiprocessing库应用详解

01-20

Python爬虫（十）学习Python爬虫过程中的心得体会以及知识点的整理，方便我自己查找，也希望可以和大家一起交流。 —— multiprocessing库应用详解 —— 文章目录Python爬虫（十）—— multiprocessing库应用详解 ——1. Process模块1.1 构造方法1.2 其他方法2. Pool模块2.1 构造方法2.2 其他方法3. Queue模块4. Pipe模块 multiprocessing库对应的是进程。进程和线程的问题点击详细教程查看。 1. Process模块 Process模块用来创建子进程，可以实现多进程的创建，启动，关闭等操作。 1.1 构

requests多进程爬取数据

qq_39697564的博客

01-21

1823

好长时间没有更新，今天更新一次！！。因为工作原因，一直在使用pyspider框架有半年没有用过scrapy框架了，知识点也忘记了很多，今天写了一个多线程爬取APP的图片时间的脚本，供大家参考！ import re, random, time, json, requests, datetime, os from pyquery import PyQuery as pq from multip...

scrapy爬虫框架 (5. 避免被封措施）

随笔

04-03

2151

文章目录1. 措施2.Scrapy Middleware用法简介（下面几个操作都需要用到这个文件）2.1 文件位置2.2 简介转自：https://www.cnblogs.com/onefine/p/10499320.html3.随机延时爬取方式一：这个项目下的所有爬虫延时（已尝试）方式二：单独spider延时（未尝试）1.首先了解scrapy项目中settings参数的使用详解里的custom_...

python3爬虫

zylg

04-13

2435

基本库的使用urllib urllib包含了四个模块：（1）request，http请求模块（2）error，异常处理模块（3）parse，url处理的工具模块（4）robotparser，识别网站的robots.txt文件 1.request from urllib import request, parse, error import socket ''' request.urlope...

掌握Python爬虫反爬虫技术的应对方法

# 1. 爬虫概述 ## 1.1 什么是爬虫？爬虫（Web Crawler），又称网络爬虫，是一种按照一定的规则，自动...Python拥有丰富的爬虫库，其中比较流行的库包括Requests、BeautifulSoup、Scrapy等。Requests库用于发送网络请

Python爬虫伪装成浏览器访问及fake_useragent库使用方法

Artorias的博客

10-27

1498

在编写爬虫进行网页数据的时候，很多网站有反爬机制，对于不同的网站，破解反爬的方法不同，这里的一种方法是模拟成浏览器访问下面以哔哩哔哩举例 1.使用平时用的浏览器自带的user-agent 首先在浏览器打开b站，右键，点击检查然后点击network–>找到bilibili.com–>点击headers 在最下面可以看到user-agent，这个就是浏览器的请求头注意：如果点击ne...

Python爬虫——多进程multiprocessing

明月清風

07-30

6562

其实多进程相对来说不是特别适合用来做爬虫，因为多进程比较适用于计算密集型，而爬虫是IO密集型，因此多进程爬虫对速度的提升不是特别明显，但是将爬虫改为多进程比较简单，只需简单的几行代码即可搞定，所以在修改我的爬虫提升效率时，我最先实现的是多进程爬虫。（然而速度真心还是慢，我多线程+协程的程序跑的晚，却早已经结束工作了，多进程的还在苦战…）下面我通过实例来进行介绍。我爬取的数据是外文数...

python爬虫scrapy之如何同时执行多个scrapy爬行任务

weixin_30881367的博客

11-26

793

背景：　　刚开始学习scrapy爬虫框架的时候，就在想如果我在服务器上执行一个爬虫任务的话，还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务，但是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？小白解决办法：　　1、在spiders同目录下新建一个run.py文件，内容如下（列表里面最后可以加上参数，如--nolog） ...

我的第一个 scrapy 爬虫

weixin_34273481的博客

09-29

407

安装 python 这个就不用我说了吧，网上教程一大堆安装 scrapy 包 pip install scrapy 创建 scrapy 项目 scrapy startproject aliSpider 进入项目目录下，创建爬虫文件 cmd 进入项目目录，执行命令： scrapy genspider -t crawl alispi j...

scrapy 爬取数据时踩到的几个坑

Great haste makes great waste

04-17

1869

1、将配置放在settings.py 中时，注意该脚本中配置会被使用pickle 进行持久化操作，因此，如使用redis，不要在此处进行如 rdb = redis.Redis(db=0 此类操作，可以放到执行脚本中 2、使用CrawlerProcess 进行替代scrapy crawl CrawlerName 时，对 CrawlerProcess 进行实例化时，不要放到函数中去，可以作为全局变量，...

爬虫Spider 03 - requests模块 | xpath解析 | lxml解析库

哦卷！

10-12

1548

文章目录爬虫Spider 02 总结爬取网站思路数据持久化 - csv数据持久化 - MySQL数据持久化 - MongoDB多级页面数据抓取爬虫Spider 03 笔记电影天堂二级页面抓取案例**领取任务**实现步骤requests模块安装requests.get()Chrome浏览器安装插件安装方法需要安装插件xpath解析定义示例匹配演示选取节点匹配多路径（或）常用函数lxml解析库安装使用...

Python爬虫入门实战之猫眼电影数据抓取(理论篇)

若数的博客

04-06

3279

前言　　本文可能篇幅较长，但是绝对干货满满，提供了大量的学习资源和途径。达到让读者独立自主的编写基础网络爬虫的目标，这也是本文的主旨，输出有价值能够真正帮助到读者的知识，即授人以鱼不如授人以渔，让我们直接立刻开始吧，本文包含以下内容： Python环境搭建与基础知识爬虫原理概述爬虫技术概览猫眼电影排行数据抓取 Ajax数据爬取猫眼电影票...

scrapy爬虫和自写爬虫对比--爬jobbole文章

小样的博客

09-02

7006

前几天写了一个爬虫，用来爬伯乐在线的python版块的文章。其实这个爬虫只是保存网页而已，因为伯乐在线的文章既有图片又有代码，爬主要部分的话排版很难看，不如直接把网页保存下来。然后这两天就在看python的一个轻量级爬虫框架–scrapy，并尝试用scrapy写爬虫。一开始觉得毫无头绪，后来慢慢就觉得挺好使的。但是好使归好使，就是不知道性能如何？于是就用scrapy也写一个爬虫来爬伯乐在线的文章