自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 scrapy爬虫部署

scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本 安装 pip3 install scrapyd scrapyd-client发布爬虫需要使用另一个专用工具,就是将代码打包为EGG文件,其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成 p...

2019-09-22 20:27:04 66

原创 scrapy-redis分布式爬虫

为甚要学习scrapy_redis? Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式 安装命令: pip3 install scrapy-redis Scrapy-redis提供了四种组件(意味着这四个模块都要修改) Scheduler Duplication Filter Item Pipeline Base ...

2019-09-22 19:34:36 91

原创 9.10线程,线程池

线程 线程python的thread模块是比较底层的模块,python的threading模块是对thread做了一些包装的,可以更加方便的被使用 使用threading模块 import threading threading.Thread() target 线程要执行的目标函数 name 线程名称 args 传参数(元祖) kwargs 传参数(字典) 单线...

2019-09-10 20:02:55 75

原创 9.10作业

BeautifulSoup4 和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML Beautiful用来解析HTML比较简单,API人性化,支持CSS选择器,Python标准库中的HTML解析器,也支持lxml的xml解析器,Beautiful Soup 3已经停止开发,推荐使用Beautiful Soup 4,使用pip 安装:...

2019-09-10 19:14:08 66

原创 9.9作业

Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动...

2019-09-09 19:25:15 77

原创 9.6作业

正则 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。 Regular Expression的“Regular”...

2019-09-09 09:23:25 107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除