自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 如何让 Scrapy 不要缓存包含特定关键字的Response

当使用 Scrapy 进行网络爬取时,HTTP 缓存中间件是一个十分有用的工具,它可以根据HTTP状态来帮助我们保存和重用先前爬取的响应,例如缓存状态为2xx的响应。但有时,我们可能希望基于响应的实际内容来决定是否进行缓存。例如,如果Response正文中包含“请求频繁”、“error_code”这样的关键字时,我们希望Scrapy不要缓存它,这个在实际采集数据时经常会遇到,因为很多网站的API...

2023-10-12 21:37:00 119

原创 centos7 下安装docker报错:You could try using...

搞了台VPS,想要装docker,发现死活装不上,各种报错。之前系统是centos6,发现官方现在已经不支持centos6了,遂升级到centos7,然后还是出现下面这个错误。Error: Package: docker-engine-1.12.3-1.el7.centos.x86_64 (dockerrepo) Require...

2023-10-12 21:24:06 822 1

原创 squid异常停止的排查步骤

今天重启squid的时候发现,squid启动后,status 一会就stop了whoami@blackman:~/script/AutoProxy-master/main/server$ sudo service squid3 startsquid3 start/running, process 19021whoami@blackman:~/sc...

2023-10-12 21:24:02 1125 1

原创 django有什么CMS比较好用?哪个好?

这个网站有目前在电子商务领域流行的django cms的横向对比表格,可以看看https://djangopackages.org/grids/g/ecommerce/从结果上来看,django-oscar是star最多的。内容来源:http://www.talebook.org/blog/page/25.html ...

2023-10-12 21:23:58 4143 1

原创 requests 上件中文文件名报错解决方案

这几天在用wxpy写机器人,在调用里面的上传文件接口的时候,一直报错。经过排查后,发现是不支持中文文件名;在群里问了下作者后才知道是requests惹的祸,默认requests用的是unicode来处理文件路径的,所以一旦文件名里面包含了汉字,就会出现下面的错误。An error occurred in <function process_tex...

2023-10-12 21:23:44 746 1

原创 解决:无法从 Windows 应用商店下载。请检查网络连接

今天在安装wsl的时候,装了几次一直中断,一直提示正在从Windows 应用商店下载,网络无法连接。。。每次都是加载到2%就断了。网上搜了一圈,找到了解决办法:修改DNS把DNS修改为微软的DNS:4.2.2.1和4.2.2.2就可以了https://www.zhihu.com/question/49226720/answer/138958737...

2023-10-12 21:23:30 2404

原创 使用scrapy搭建大型爬虫系统

最近新项目准备启动,在开始前内容、词库这些都需要提前做好准备,所以就有了这篇文章。在开始动手,看了下行业核心词排在首页的站,发现内容都多得不要不要的,各种乱七八糟的频道、页面模板,心想,如果每个网站、每套页面都写一套采集模板的话,那简直要累死。所以,这次,玩点不一样的。首先,根据需求,采集一个行业的文章内容,可以拆分为两个模块:爬虫系统:主要负责...

2023-10-12 21:23:11 343 1

原创 使用ffmpeg给视频添加跑马灯效果(滚动字幕)

直接上命令从左往右滚ffmpeg -i input.mp4 -vf "drawtext=text=string1 string2 string3 string4 string5 string6 string7 :expansion=normal:fontfile=foo.ttf: y=h-line_h-10:x=(mod(5*n\,w+tw)-tw):...

2023-10-12 21:22:51 5279 1

原创 python grequest模块使用备忘录

手里上有一批链接,需要检查他们是否已经被删除。本来是想用多线程的,但是考虑了下一个是实现起来稍繁琐。而且性能不理想,单机基本超过10线程基本上就没有太多增益了。所以考虑了下,还是决定用异步IO。在使用grequest之前用的是aiohttp来处理的,但是这个库蛋疼的时,每个延时请求前都要添加await,导致代码里一堆await和async。基于此,就...

2023-10-10 14:38:53 857

原创 解决 ZeroTier 网络中的连通性问题:可以PING通,但是无法访问服务

背景我有一台运行 Linux 的服务器,而我本地的电脑运行的是 Mac 系统。我原本使用的是 Tailscale 来创建局域网,但我计划在此基础上增加 ZeroTier 作为备用的组网方案。问题的产生在服务器和本地都成功安装 ZeroTier 并加入网络后,我发现两台设备之间无法实现 PING 连通。然而,当我查看 Web 控制台时,发现所有设备都显示为在线,并且已经获得授权。而在 Tai...

2023-07-21 11:31:00 4044 2

原创 Scrapy 部署错误:subprocess.CalledProcessError 以及解决方案

最近在使用 Scrapy 和 Scrapyd 时,我遇到了一个关于 subprocess.CalledProcessError 的问题。在这篇博文中,我将描述这个错误、找出的原因以及最后的解决方案。错误描述在使用 scrapyd-deploy 命令部署我的 Scrapy 项目时,我遇到了如下的错误:subprocess.CalledProcessError: Command '['/Use...

2023-07-21 11:22:00 773

原创 docker版LAMP(PHP+MYSQL+APACHE)配置

最近在搭测试环境,一开始就在vagant和docker之间来回折腾。两者其实都非常适合用来搭开发环境;但最终让我决定用Docker的原因是因为Vagant在hyper-v下出现了一些奇怪的问题,所以Docker就顺理成章的成了最后的选择。总结了下Docker相比vagant的优势:1. docker的镜像比较成熟而且丰富,基本上只需要引入就完事了,用vagrant的话,可能还要自己搭,实现不...

2020-03-10 18:02:00 18

原创 scrapy 错误:Missing scheme in request url: %s' % self._url

先说报错原因:使用了和start_urls同名的参数我通过scral crawl projename -a start_urls=http:example.com来传start_urls,然后想在项目中初始化spider类的时候,添加抓取URL,代码如下:class xxxxSpider(CrawlSpider): name = 'xxxx' allowed_domains ...

2019-06-07 11:19:00 32

原创 [解决方案]docker: Error response from daemon: OCI runtime create failed

错误原因在新服务器上安装好docker后,发现无法运行,经常一顿搜索后,发现是docker安装的版本过高,最新版本docker-18.06 的核心好像没有经过充分的测试就发布了。导致一运行,就提示:docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting ...

2019-06-06 14:59:00 99

原创 scrapy 使用crawlspider rule不起作用的解决方案

一直用的是通用spider,今天刚好想用下CrawlSpider来抓下数据。结果Debug了半天,一直没法进入详情页的解析逻辑。。爬虫代码是这样的# -*- coding: utf-8 -*-import scrapyfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExt...

2019-06-05 00:03:00 31

原创 解决mysql for docker容器报错:Authentication plugin 'caching_sha2_password' cannot be loaded

为图方便,懒得在mac上安装mysql了,一个是管理不方便,第二个是为了方便多机器同步开发环境。就使用docker安装了。拉取mysql镜像docker pull mysql运行mysql实例docker run --name mysql -p 12345:3306 -e MYSQL_ROOT_PASSWORD=root -d mysql:latest就是这么两步,一切就是这么美好:)结...

2019-04-10 00:38:00 25

原创 使用Python脚本分析你的网站上的SEO元素

撰稿马尼克斯德芒克 上2019年1月, Sooda internetbureauPython就是自动执行重复性任务,为您的其他搜索引擎优化(SEO)工作留出更多时间。没有多少SEO使用Python来解决问题,即使它可以为您节省大量的时间和精力。例如,Python可用于以下任务:数据提取制备分析和可视化机器学习深度学习我们将主要关注本文中的数据提取和分析。将为每个脚本指示所需的模...

2019-04-08 13:51:00 21

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除