![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
匆匆流年。
python开发
展开
-
多个爬虫同时运行出现错误twisted.internet.error.ConnectBindError: Couldnt bind: 24: Too many open files.
最近项目中300个左右的爬虫总是报 twisted.internet.error.ConnectBindError: Couldn't bind: 24: Too many open files. 由于网络质量的问题,会出现部分连接无法回收,于是查询资料,按照网上的建议,都是修改soft max limit 参数, 但是我改了,查看爬虫进程的max open files 始终不变。 修改配置: ulimit -n 2048 ulimit -HSn 2048 查看...原创 2020-05-27 17:57:24 · 7467 阅读 · 0 评论 -
scrapy_redis 分布式去重配置
近期接手别人的爬虫项目,需要改写成分布式的方式部署上服务器,使用srapy_redis完成此项功能,记录下相关的配置信息 爬虫文件继承的类名必须更改为scrapy_redis对应的类名,在前面加上Redis即可 去重组件和调度器也需更改: # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # SCHEDULE...原创 2018-11-13 17:10:23 · 12209 阅读 · 0 评论 -
中文语料 自动分词、标注词性 工具
基于已有的第三方网站在线语料切分,分析其获取规则,制作的小小的工具 参数均为 须标注的文章或字符串,返回值均为 标注好词性的内容 链接如下: 语料库在线 传媒语言语料库在线分词标注系统 请合理使用,勿频繁使用它们的接口! #!/usr/bin/env python # -*- coding: utf-8 -*- import pymysql import requests impor...原创 2019-01-14 11:57:31 · 17269 阅读 · 2 评论 -
scrapy 爬取新浪微博 的微博列表及微博内容
代码地址:GitHub 参考:博客 通过scrapy框架爬取指定账号的信息和微博 截止到目前(2019年01月15日)的微博账号粉丝排名: 爬取方法:提取网页版的微博接口 1.重写start_request方法 def start_requests(self): weibo_id = [1195354434, ] for wid in we...原创 2019-01-15 17:34:04 · 13736 阅读 · 0 评论