ssbc 手撕包菜运行一段时间就停止的原因

最新推荐文章于 2024-11-11 21:30:41 发布

dianhe2770

最新推荐文章于 2024-11-11 21:30:41 发布

阅读量171

点赞数

文章标签： python 爬虫数据库

原文链接：http://www.cnblogs.com/k1995/p/5699910.html

版权

本文解析了ssbc爬虫运行中出现的异常停止问题，指出原因是与MySQL连接断开，并提供了两种解决方案：一是定时重启爬虫；二是优化代码实现断线重连功能。同时，还提及了index_worker.py同样存在的问题及其修复方法。

摘要由CSDN通过智能技术生成

原文： ssbc 手撕包菜运行一段时间就停止的原因

ssbc 运行一段时间后，大概半个小时，就莫名奇妙停止不爬了，通过错误提示可以看出，其实是ssbc与mysql(maridb)断开连接了，导致程序异常，当然就插入不了数据了。

所以解决办法很简单，有多种解决办法：

一种是写个脚本，定时重启爬虫。这种方法比较笨，效率低下，因为不知道什么时候爬虫停止了。
另一种是修改下代码，当mysql断开连接时，再次重连mysql就可以拉。

附上方法二修改后的爬虫源码(simdht_worker.py)

附件下载见原文

============更新======

上面只是修复了爬虫的问题，它只是负责抓取数据。index_worker.py是用来建立索引，和simdht_worker.py问题一样，运行一会儿就停止，导致无法搜索到新数据。所以也需要修复下

附件下载见原文

转载于:https://www.cnblogs.com/k1995/p/5699910.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dianhe2770

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

手撕包菜搭建

weixin_33729196的博客

10-11

344

概述最近做了两件事，一件事就是买了块1t硬盘，第二件事就是买了个百度云会员，无奈找不到资源下载，那就没办法了，搭建一个磁力链接搜索引擎来爬去链接，然后去找资源。说道磁力链接搜索引擎，最好的当然是手撕包菜了。搭建直接使用脚本搭建安装，记住服务器内存最好1g以上的 wget --no-check-certificate https://raw.githubusercontent.com/ba...

手撕包菜 mysql_手撕包菜搭建

weixin_42515100的博客

02-05

402

概述最近做了两件事，一件事就是买了块1t硬盘，第二件事就是买了个百度云会员，无奈找不到资源下载，那就没办法了，搭建一个磁力链接搜索引擎来爬去链接，然后去找资源。说道磁力链接搜索引擎，最好的当然是手撕包菜了。搭建直接使用脚本搭建安装，记住服务器内存最好1g以上的wget --no-check-certificate https://raw.githubusercontent.com/banwagon...

参与评论您还未登录，请先登录后发表或查看评论

手撕包菜 mysql_新版手撕包菜安装教程

weixin_39588445的博客

01-19

251

系统：centos 7 64位一．获取ssbc源代码1.环境检测(Ssbc当前版本是基于django1.8.1开发，所需python环境为python2.7.5以上。)[root@localhost ~]# python -VPython 2.7.5执行python -V即可获取当前版本。2.获取ssbc安装包[root@localhost ~]# wget https://github.com/...

手撕包菜磁力搜索引擎的开源说明

热门推荐

壹加贰等叁

05-29

2万+

已经一年半载没有写博客了，搞得上来不知道写些什么。博客上的内容还时不时有人评论，大部分我还是会一一回复的。有些人会关注我的博客用什么主机，我的博客现在是用Linode的主机，因为现在很便宜，而且配置不差。另外比较多的是问手撕包菜的源代码能否提供，能否出售。今天我写这个文章就是把手撕包菜的网站开源了，包括网站页面，DHT爬虫和搜索引擎相关部分。 2年前的那篇跟磁力搜索相关的文章在这里：写了

BT搜索引擎ssbc.zip

07-19

作为最早在国内研究和实践DHT爬虫的人，我的灵感是来自芬兰Helsinki大学的这篇论文： Real-World Sybil Attacks in BitTorrent Mainline DHT 英文好的同学应该很容易读懂，跟我写的不到300行的爬虫代码大致原理一样。初次接触DHT网络的可以结合我之前的文章阅读，或者拜读Kevin Lynx的博客。所以具体原理在这里就不再阐述了。手撕包菜一开始只是为了纯粹的技术研究，没有去想这个搜索引擎能给网民带来什么样的福利。当时采集了大量的数据，发现有一半以上的资源为限级内容，于是试图去对资源进行分类并且做了很多这方面的工作。譬如，基本上能通过一套规则能筛选出限级内容，对资源进行分类，如果是视频还能匹配出是哪一部影片。可惜，这些工作我主观上认为对生活应用并没有太大价值，于是就放弃了深入的研究。或许是因为网民使用此类搜索引擎大部分都是具有明显的目的性。手撕包菜经历了多次点技术变更开源版本使用了django网站框架重写，之前是Flask，再早期是tornado。电影FM也是使用tornado，后来发现tornado并不适用于任何场景。以内容为王的网站还是django比较擅长，只是入门时间比其他框架都较长。早期数据库采用了MongoDB，因为配合Python读写数据很方便，也不用关注数据结构，搜索功能采用自带的关键词搜索，不过后来随着资源数量增加，性能也明显跟不上。今年换了WiredTiger引擎，自带的fulltext search还是不给力。另外Amazon的cloudsearch是个坑，土豪可以考虑，性能真的很不错，就是比较贵。最后还是搭建一个SphinxSearch吧，数据库也换成MySQL（MyISAM引擎），配合起来也很方便。Sphinx创建全文索引的速度很给力，官方的自评也很高，我自己测试1000w的资源（大概3GB），1分钟左右就索引完毕。不信，大家可以自测一下。标签：ssbc

小虾大神的开源种子搜索神器----手撕包菜.zip

09-25

"小虾大神的开源种子搜索神器---手撕包菜"是一个开源项目，它提供了一种高效、便捷的方式来搜索种子文件。在这个项目中，"手撕包菜"可能是一个具有创新性和用户友好的搜索引擎，专为寻找Torrent种子文件而设计。开源...

磁力链接-基于SSBC的磁力链接一键部署实现.zip

04-05

“一键部署”意味着这个项目提供了一个自动化脚本或者安装程序，使得用户只需执行一次命令或点击一次按钮，就能完成整个SSBC服务的配置和启动。这对于那些不熟悉服务器管理或者BitTorrent技术的用户来说，大大降低了...

一键部署基于SSBC的磁力链接部署实现.zip

04-05

SSBC（Simple Seed-Based Content Distribution）是一种用于分布式文件分享的技术，尤其在P2P网络中广泛应用。磁力链接是SSBC实现的一种重要机制，它不依赖于特定的服务器，而是通过一个唯一标识符来定位文件，这个...

ssbc:分叉 https

07-16

手撕包菜网站网站说明这是的网站源代码。开源的目的是为了促进技术交流和相互学习，把DHT与搜索引擎技术应用到更广泛的领域去。本站于2015年5月使用django改写。与爬虫相关的代码都在目录workers下。相关文章...

ssbc-rs：用Rust编写的SSBC解释器。参见http：csci.viu.ca〜pwalshteaching261261261.html

02-14

告诉ssbc.pl不首先重置就运行将进入无限循环，没有副作用。告诉ssbc-rs不首先复位就开始运行，这将可能会解释为NOP，除非已将某些内容写入端口B或D 指令中同一位置发生多次读取和/或写入的情况可能与ssbc.pl（未...

磁力搜索引擎ZSKY一键安装包

有关计算机的感悟

11-05

9813

之前介绍过SSBC磁力搜索引擎一键安装包，而今天要推荐的是SSBC的改进版ZSKY。 ## 一：系统需求 1：拥有外网IP，内网IP爬取不到任何数据。这个当然是废话，这种类型的网站放国内，除非你想被请去喝茶。 2：Centos7+Python2.7 3：1G内存，100G硬盘 ## 二：安装方法推荐一键安装包 yum -y install git git clone ...

手撕包菜BT搜索引擎带爬虫自动抓取安装

一个有趣、有料、有内涵的地方!

12-22

2万+

看过网络上各种各样的BT搜索网站，但是最喜欢的还是手撕菜包（bt.shousicaibao.com)，目前这个网站好像已经打不开了，也许作者无心经营，但是他（xiaoxia）给我们留下了开源的源码，这是极好的。目测此源码是基于python+mariadb/mysql写的，django做web服务器，我没有测试过，因为服务器不给力，但是有人给出了搭建方法： 1.linux系统。

KingbaseES时间类数据类型和oracle时间类数据类型的区别

Kingbase_的博客

10-29

1647

关键字：数据类型、时间类型 Oracle日期时间类型有两类，一类是日期时间类型，包括Date， Timestamp with time zone，Timestamp with local time zone。另一类是Interval类型，主要有Interval year to month 和Interval day to second两种。 KingbaseES也有类似的两类时间类型。其中日期时间类型包括Timestamp with time zone， Timestamp without time zo

【python GUI编码入门-21】如何用Tkinter创建一个记事本应用

木头大左的博客

11-08

在现代编程环境中，图形用户界面（GUI）应用程序的开发变得越来越重要。Python的Tkinter库是一个功能强大且易于使用的GUI工具包，非常适合初学者和有经验的开发者使用。本文将详细介绍如何使用Tkinter创建一个简易的记事本应用，涵盖从安装到实现各项功能的全过程。Tkinter是Python的标准GUI库，它提供了丰富的接口来创建窗口、对话框、按钮等常见的GUI组件。Tkinter具有良好的跨平台性，可以在Windows、Mac OS和Linux上运行。

数据分析——学习框架

不迁怒，不贰过。小知识，大智慧。

11-11

1115

本教程旨在为读者提供一个系统化的数据分析学习框架，涵盖从数据收集、清洗、分析到可视化和报告的各个环节。通过深入探讨每个环节的理论与实践，读者将能够掌握数据分析的基本技能，提升数据处理和分析的能力。无论您是数据分析的初学者，还是希望进一步提升技能的专业人士，本教程都将为您提供有价值的指导和实用的工具，助您在数据分析的旅程中取得成功。

一次薅国家超算平台的记录

weixin_55179972的博客

11-07

407

参与谁是下一个“AI”跃人 -AI体验推介活动，赢取千元算力券！（https://www.scnet.cn/home/subject/modular/index270.html）2. Clone开源的Llama3 Chinese （https://github.com/LlamaFamily/Llama-Chinese）活动名称主题：国家超算互联网「AI跃升季」：谁是下一个“AI”跃人 - AI算力体验活动。其中位置1，2替换为商品基模型和训练出来的微调模型。模型改为商城下载的模型。2、运行的过程记录。

SpringBoot 实现图片加水印

心猿意码

11-11

240

通过上述步骤，我们可以在SpringBoot项目中实现一个简单的图片加水印功能。当然，实际应用中可能需要更复杂的水印处理，比如水印图片、调整水印位置等，可以根据需求进行相应的扩展和优化。

推荐一款管道数据检索工具：Pipedata-Pro

11-09

355

是一款专为设计石油、天然气、水和蒸汽管道及管道系统的工程师开发的应用程序。该应用程序提供了设计管道系统所需的工程数据，拥有一个全面的管道类型、配件和材料。

Pytorch无法使用GPU的问题的原因