自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 MySQL使用

【创建数据库】1、打开MySQL 5.7 2、输入超级用户密码:123456,回车 3、进入以下界面 4、使用show语句找出在服务器上当前存在什么数据库mysql>show databases;+--------------------+| Database |+--------------------+| information_schema || my ...

2018-05-25 16:55:51 345

转载 Scrapy学习笔记7——Items

Items爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy spider可以以python的dict来返回提取的数据.虽然dict很方便,并且用起来也熟悉,但是其缺少结构性,容易打错字段的名字或者返回不一致的数据,尤其在具有多个spider的大项目中。。为了定义常用的输出数据,Scrapy提供了 Item 类。 Item 对象是种简单的容器,保存了爬取到得数据。 其提供...

2018-05-25 15:28:39 6169

转载 Scrapy学习笔记6——选择器(Selectors)

选择器(Selectors)当抓取网页时,你做的最常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的:BeautifulSoup 是在程序员间非常流行的网页分析库,它基于HTML代码的结构来构造一个Python对象, 对不良标记的处理也非常合理,但它有一个缺点:慢。lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库(也可以...

2018-05-25 15:26:23 1272

转载 Scrapy学习笔记5——Spiders

SpidersSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成response,并作为参...

2018-05-25 15:13:43 311

转载 Scrapy学习笔记4——命令行工具(Command line tools)

命令行工具(Command line tools)0.10 新版功能.Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项。(为了遵循更独立的 scrapyd...

2018-05-24 23:57:54 370

转载 Scrapy学习笔记3——Scrapy入门教程

Scrapy入门教程在本篇教程中,我们假定您已经安装好Scrapy。 如若不然,请参考 安装指南 。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。本篇教程中将带您完成下列任务:创建一个Scrapy项目定义提取的Item编写爬取网站的 spider 并提取 Item编写 Item Pipeline 来存储提取到的Item(即数据)Scrapy由 P...

2018-05-24 23:13:46 463

转载 Scrapy学习笔记2——安装指南

安装指南安装Scrapy注解请先阅读 平台安装指南.下列的安装步骤假定您已经安装好下列程序:Python 2.7Python Package: pip and setuptools. 现在 pip 依赖 setuptools ,如果未安装,则会自动安装 setuptools 。Python 2.7.9 and later include pip by default, so you may hav...

2018-05-24 23:10:23 185

转载 Scrapy学习笔记1——初窥Scrapy

初窥ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 网络抓取 所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。一窥示例spider为了让您了解Scrapy提供了什么功能,我们将提供一个Scrapy...

2018-05-24 22:54:20 226

转载 scrapy爬取qq音乐

url分析,拿到初始url(start_url)要爬取的内容为qq音乐的排行榜中的歌曲,首先我们要分析url:1.打开qq音乐的首页,点击排行榜,右键,检查(谷歌浏览器,其他浏览器各有不同,360浏览器为:审查元素)。 2.右键,检查: 3. 我们要分析所有向后台发出的请求,找出有用的url。点击Network,然后刷新页面。我们会看到有很多请求。 我们对所有的请求进行过滤和筛选,此时选用最笨的方...

2018-05-24 16:58:44 1550 1

转载 Scrapy爬虫入门教程三 命令行工具介绍和示例

命令行工具Scrapy是通过scrapy命令行工具来控制的,当前最新版本0.10配置设置Scrapy将scrapy.cfg在标准位置的ini样式文件中查找配置参数:系统默认配置:/etc/scrapy.cfg或c:\scrapy\scrapy.cfg全局配置文件:~/.config/scrapy.cfg($XDG_CONFIG_HOME)和~/.scrapy.cfg($HOME)用于项目配置文件:...

2018-05-22 16:23:39 203

转载 Scrapy爬虫入门教程二 官方提供Demo

开发环境: Python 3.6.0 版本 (当前最新) Scrapy 1.3.2 版本 (当前最新) [toc]今天研究下官方给出的案例,大家可以多看看,多模仿模仿。例子最好的学习方法是使用示例,Scrapy也不例外。因此,有一个名为quotesbot的 Scrapy项目示例,请访问https://github.com/scrapy/quotesbot,一个使用CSS选择器,另一个使用XPath...

2018-05-22 15:58:09 223

转载 Scrapy爬虫入门教程一 安装和基本使用

Scrapy安装Scrapy在Python 2.7和Python 3.3或更高版本上运行(除了在Windows 3上不支持Python 3)。通用方式:可以从pip安装Scrapy及其依赖: pip install Scrapy创建项目scrapy startproject tutorial 项目结构:tutorial/ scrapy.cfg # 部署配置文件 ...

2018-05-21 22:42:05 308

转载 scrapy 快速入门

安装ScrapyScrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。pip install scrapy1在Windows上安装时可能会出现错误,提示找不到Microsoft Visual C++。这时候我们需要到它提示的网站visual-cpp-build-tools下载VC++ 14编译器,安装完...

2018-05-21 20:53:11 159

转载 解决Scrapy安装错误:Microsoft Visual C++ 14.0 is required

问题描述当前环境win10,python_3.6.1,64位。在windows下,在dos中运行pip install Scrapy报错:?12building 'twisted.test.raiser' extensionerror: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build To...

2018-05-21 20:34:23 417

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除