爬虫相关
文章平均质量分 94
爬虫部分学习
arthur
这个作者很懒,什么都没留下…
展开
-
正则小结
有时我们在进行字符串处理的时候,希望按自定义的规则进行处理,我们将这些规则称为模式。可以用正则表达式来描述这些自定义规则,正则表达式也称为模式表达式。 在python中,一般我们会使用re模块实现python正则表达式的功能。 正则表达式中常见的原子有:普通字符作为原子,非打印字符作为原子,通用字符作为原子,原子表。 模式修正符,可以在不改变...转载 2018-11-10 17:24:55 · 97 阅读 · 0 评论 -
爬虫数据提取方法详解(一)
爬虫中数据的分类:结构化数据(json,xml等)处理方式是直接转化为python类型,jsonpath,xpath,bs4等. 非结构化数据(HTML)处理方式是正则表达式,xpath,bs4等.数据提取之json: json是一种轻量级的数据交换格式,他使得人们很容易的进行阅读和编写,同时也方便了机器进行解析...原创 2018-11-12 17:59:56 · 20215 阅读 · 0 评论 -
了解python爬虫框架
1.ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。特性: HTML, XML源数据 选...原创 2018-11-30 17:34:58 · 390 阅读 · 0 评论 -
scrapy安装与配置
Scrapy安装 Scrapy的安装有多种方式,它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下,scrapy的安装过程。 Scrapy依赖的库比较多,至少需要依赖库Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。在不同平台环境又不相同,所以在安装前确保先把一些基本库安装好,尤其是Windows。回到顶部一、A...原创 2018-11-30 18:17:59 · 286 阅读 · 0 评论 -
scrapy命令行工具介绍
命令行工具(Command line tools)0.10 新版功能.Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项。默认的Scrapy...原创 2018-12-01 13:33:24 · 152 阅读 · 0 评论