weiwen_42263548-CSDN博客

转载 MySQL使用

【创建数据库】1、打开MySQL 5.7 2、输入超级用户密码：123456，回车 3、进入以下界面 4、使用show语句找出在服务器上当前存在什么数据库mysql>show databases;+--------------------+| Database |+--------------------+| information_schema || my ...

2018-05-25 16:55:51 345

Items爬取的主要目标就是从非结构性的数据源提取结构性数据，例如网页。 Scrapy spider可以以python的dict来返回提取的数据.虽然dict很方便，并且用起来也熟悉，但是其缺少结构性，容易打错字段的名字或者返回不一致的数据，尤其在具有多个spider的大项目中。。为了定义常用的输出数据，Scrapy提供了 Item 类。 Item 对象是种简单的容器，保存了爬取到得数据。其提供...

2018-05-25 15:28:39 6169

转载 Scrapy学习笔记6——选择器(Selectors)

选择器(Selectors)当抓取网页时，你做的最常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的：BeautifulSoup 是在程序员间非常流行的网页分析库，它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但它有一个缺点：慢。lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库(也可以...

2018-05-25 15:26:23 1272

转载 Scrapy学习笔记5——Spiders

SpidersSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似下文:以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生成response，并作为参...

2018-05-25 15:13:43 311

转载 Scrapy学习笔记4——命令行工具(Command line tools)

命令行工具(Command line tools)0.10 新版功能.Scrapy是通过 scrapy 命令行工具进行控制的。这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。对于子命令，我们称为 “command” 或者 “Scrapy commands”。Scrapy tool 针对不同的目的提供了多个命令，每个命令支持不同的参数和选项。(为了遵循更独立的 scrapyd...

2018-05-24 23:57:54 370

转载 Scrapy学习笔记3——Scrapy入门教程

Scrapy入门教程在本篇教程中，我们假定您已经安装好Scrapy。如若不然，请参考安装指南。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。本篇教程中将带您完成下列任务:创建一个Scrapy项目定义提取的Item编写爬取网站的 spider 并提取 Item编写 Item Pipeline 来存储提取到的Item(即数据)Scrapy由 P...

2018-05-24 23:13:46 463

转载 Scrapy学习笔记2——安装指南

安装指南安装Scrapy注解请先阅读平台安装指南.下列的安装步骤假定您已经安装好下列程序:Python 2.7Python Package: pip and setuptools. 现在 pip 依赖 setuptools ，如果未安装，则会自动安装 setuptools 。Python 2.7.9 and later include pip by default, so you may hav...

2018-05-24 23:10:23 185

转载 Scrapy学习笔记1——初窥Scrapy

初窥ScrapyScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了网络抓取所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。一窥示例spider为了让您了解Scrapy提供了什么功能，我们将提供一个Scrapy...

2018-05-24 22:54:20 226

转载 scrapy爬取qq音乐

url分析，拿到初始url（start_url）要爬取的内容为qq音乐的排行榜中的歌曲，首先我们要分析url：1.打开qq音乐的首页，点击排行榜，右键，检查（谷歌浏览器，其他浏览器各有不同，360浏览器为：审查元素）。 2.右键，检查： 3. 我们要分析所有向后台发出的请求，找出有用的url。点击Network，然后刷新页面。我们会看到有很多请求。我们对所有的请求进行过滤和筛选，此时选用最笨的方...

2018-05-24 16:58:44 1550 1

转载 Scrapy爬虫入门教程三命令行工具介绍和示例

命令行工具Scrapy是通过scrapy命令行工具来控制的，当前最新版本0.10配置设置Scrapy将scrapy.cfg在标准位置的ini样式文件中查找配置参数：系统默认配置：/etc/scrapy.cfg或c:\scrapy\scrapy.cfg全局配置文件：~/.config/scrapy.cfg（$XDG_CONFIG_HOME）和~/.scrapy.cfg（$HOME）用于项目配置文件：...

2018-05-22 16:23:39 203

转载 Scrapy爬虫入门教程二官方提供Demo

开发环境： Python 3.6.0 版本（当前最新） Scrapy 1.3.2 版本（当前最新） [toc]今天研究下官方给出的案例，大家可以多看看，多模仿模仿。例子最好的学习方法是使用示例，Scrapy也不例外。因此，有一个名为quotesbot的 Scrapy项目示例，请访问https://github.com/scrapy/quotesbot，一个使用CSS选择器，另一个使用XPath...

2018-05-22 15:58:09 223

转载 Scrapy爬虫入门教程一安装和基本使用

Scrapy安装Scrapy在Python 2.7和Python 3.3或更高版本上运行（除了在Windows 3上不支持Python 3）。通用方式：可以从pip安装Scrapy及其依赖： pip install Scrapy创建项目scrapy startproject tutorial 项目结构：tutorial/ scrapy.cfg # 部署配置文件 ...

2018-05-21 22:42:05 308

转载 scrapy 快速入门

安装ScrapyScrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。pip install scrapy1在Windows上安装时可能会出现错误，提示找不到Microsoft Visual C++。这时候我们需要到它提示的网站visual-cpp-build-tools下载VC++ 14编译器，安装完...

2018-05-21 20:53:11 159

转载解决Scrapy安装错误:Microsoft Visual C++ 14.0 is required

问题描述当前环境win10，python_3.6.1，64位。在windows下，在dos中运行pip install Scrapy报错：?12building 'twisted.test.raiser' extensionerror: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build To...

2018-05-21 20:34:23 417

weixin_42263548的博客