![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 54
TerryZjl
这个作者很懒,什么都没留下…
展开
-
爬虫主要流程
爬虫主要流程调度器主调度程序主要是管理上图中其余几个模块的,然后循环的执行这几个模块进行爬取信息,直到条件达到(爬取够一定数量)跳出循环。URL管理器每爬取一个网页的有用信息后,并把有用的URL爬取下来放入URL管理器中,等下次循环的爬取可以直接从这个管理器中获取URL网页下载器这里用到下载网页的库是urllib2,通过库把url指定的网页的html源代码下载下来,存入urllib2对象以下是几种...原创 2018-02-13 00:19:32 · 8965 阅读 · 0 评论 -
pydruid学习
Pydruid支持三种方式的聚合类(Aggregation)查询时间序列查询 TopN查询GroupBy 这里介绍groupby使用方式: DRUID_BROKER_URL = 'http://{ip}:{port}'.format(ip=`druid服务ip`, port=`端口号`)DRUID_DATA_SOURCE = `表名`QUERY_TIMEOU...原创 2018-07-30 13:18:13 · 3122 阅读 · 0 评论 -
python GC RAII GIL
RAII python内存管理 __del__ GILRAIIRAII 是一个资源管理工具,约束在代码执行走出特定作用域之后,不管是正常流程,还是异常流程,都不会漏掉资源的释放,可以极大简化代码编写(不用每个分支都增加资源释放逻辑)和资源管理。多数情况下,都应该尽早释放资源,而不应该依赖垃圾收集不可控的生命周期,比如文件描述符、数据库连接。RAII可以严格绑定资源的有效期与变量的生命周...原创 2018-10-20 19:27:26 · 534 阅读 · 0 评论