n20000104-CSDN博客

原创 scrapy爬虫部署

scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本安装 pip3 install scrapyd scrapyd-client发布爬虫需要使用另一个专用工具，就是将代码打包为EGG文件，其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成 p...

2019-09-22 20:27:04 66

原创 scrapy-redis分布式爬虫

为甚要学习scrapy_redis？ Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：reqeust去重，爬虫持久化，和轻松实现分布式安装命令： pip3 install scrapy-redis Scrapy-redis提供了四种组件（意味着这四个模块都要修改） Scheduler Duplication Filter Item Pipeline Base ...

2019-09-22 19:34:36 91

原创 9.10线程，线程池

线程线程python的thread模块是比较底层的模块，python的threading模块是对thread做了一些包装的，可以更加方便的被使用使用threading模块 import threading threading.Thread() target 线程要执行的目标函数 name 线程名称 args 传参数（元祖） kwargs 传参数（字典）单线...

2019-09-10 20:02:55 75

原创 9.10作业

BeautifulSoup4 和lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML Beautiful用来解析HTML比较简单，API人性化，支持CSS选择器，Python标准库中的HTML解析器，也支持lxml的xml解析器，Beautiful Soup 3已经停止开发，推荐使用Beautiful Soup 4，使用pip 安装:...

2019-09-10 19:14:08 66

原创 9.9作业

Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动...

2019-09-09 19:25:15 77

原创 9.6作业

正则正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。 Regular Expression的“Regular”...

2019-09-09 09:23:25 107

n20000104的博客