Scrapy
Sophia$
算法
展开
-
Scrapy(九):使用scrapy爬虫并将数据保存到MangoDB数据库
1.命令行#1.创建一个新的项目scrapy startproject [项目名]#2.生成爬虫scrapy genspider +文件名+网址#3.运行(crawl)scrapy crawl +爬虫名称scrapy crawl [爬虫名] -o zufang.json# -o outputscrapy crawl [爬虫名] -o zufang.csv#4.check检查错误scrapy check#5.list返回项目所有spider名称scrapy list#6. v.转载 2020-07-07 16:21:19 · 818 阅读 · 0 评论 -
Scrapy(八):使用scrapy爬虫并将数据保存到MySQL数据库
1. 环境搭建:1.python3.6版本2.pycharm编辑器(别的编辑器也可以)。3.mySQL数据库4.navicat for mysql5.scrapy爬虫框架下载这块就不多说了,网上很多下载安装教程及解决方案。遇到问题不要着急,根据报错信息查找解决。2. 操作步骤:2.1 爬虫的实现2.1.1 首先我们使用命令行新建一个scrapy项目。windows使用win+R,输入cmd,进入终端。进入你想创建项目的文件目录,输入scrapy start project he转载 2020-07-07 14:44:20 · 3187 阅读 · 0 评论 -
Scrapy(七):爬虫利器 -正则表达式
Python 正则表达式re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.match(pattern, string,转载 2020-07-06 19:50:12 · 2189 阅读 · 0 评论 -
Scrapy(六):scrapy爬取数据保存到MySql数据库
通过往期的文章分享,我们了解了如何爬取想要的数据到Items中,也了解了如何操作MySQL数据库,那么我们继续完善我们的爬虫代码,把爬取的items,保存到MySQL数据库中。scrapy构架为了方便操作,我们自己新建一个mysqlpipelines文件夹,编写自己的pipelines.py文件,来运行保存items,在此文件夹下新建sql.py来编写我们保存数据库的sql语句。编写sql语句打开sql.py 编写代码,首先要连接数据库import pymysql.cursors# 连接转载 2020-07-06 19:49:01 · 862 阅读 · 0 评论 -
Scrapy(五):解析多层网页
通过上期的分享,我们得到了第一个网页的所有小说的名字,通过查看网页可以发现,单击小说名字后,就进入了小说详细界面,上面有小说的名字,作者,种类等信息,那我们如何爬取这些信息,这就是本期分享的内容(解析多层或者说下一层网页)。1. scrapy spider解析多层网页我们在解析小说名字的时候,查看底层代码可以看到一个a标签,此a标签就是下层网页的URL地址,我们在解析小说名字的代码基础上,增加如下代码:novelname = td.find('a').get_text()#小说名字novel转载 2020-07-06 19:42:44 · 758 阅读 · 2 评论 -
Scrapy(四):selectors 选择器
通过上期的简单介绍,我们已经可以新建一个简单的spider,但是细心的网友发现,我们在解析HTML网页的时候是:tds = BeautifulSoup(response.text, 'lxml').find_all('tr', bgcolor='#FFFFFF')#解析网页我们使用到了BeautifulSoup:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,但是缺点慢。上期网友反馈使转载 2020-07-06 19:29:24 · 292 阅读 · 0 评论 -
Scrapy(三):代码入门篇
通过以上的分享,我们了解了scrapy框架的流程图以及基本的安装,那么接下来,我们新建一个工程来走入scrapy spider的世界。1. scrapy spide新建工程首先打开我们的pycharm IDE软件,在新建工程前,请确保已经安装好scrapy框架,你可以输入下面代码确保scrapy的正常安装:cmd终端下输入 >>> scrapy -h1.1 scrapy框架确认创建项目:cmd 进入项目文件夹,输入如下代码scrapy startpr.转载 2020-07-06 18:57:00 · 266 阅读 · 0 评论 -
Scrapy (二):读懂Spider流程图
上期我们简单讲述了Scrapy 框架的基本构成,本期文章主要以一种简单的对话形式介绍一下Scrapy流程图。Scrapy框架流程图从Scrapy的流程图,我们知道Scrapy Engine(引擎)作为Scrapy的大脑,主要负责spider的协调工作,当spider运行时:Scrapy Engine(引擎):spider,你好,你好爬取那个网站?Spider(爬虫): 你好,引擎,我要爬取HTTP:\\http://www.XXXXXX.COMScrapy Engine(引擎): 那你把你需要爬转载 2020-07-06 18:45:41 · 750 阅读 · 0 评论 -
Scrapy(一):Spider框架
说道Python,估计很多同学跟我一样都是从学习Python的爬虫开始的。当然你可以使用lxml、BeautifulSoup、Request等第三方库来编写自己的爬虫。但是当需要爬取海量数据,特别是大数据的实际应用中,若自己编写爬虫,是一件特别困难的事情。还好Python提供了类似Scrapy等类似的爬虫框架。1.Scrapy框架介绍图1 Scrapy Spider 框架图Scrapy | A Fast and Powerful Scraping and Web Crawling Framew..转载 2020-07-06 17:37:11 · 906 阅读 · 0 评论