再YY一下P2P的爬虫吧

最新推荐文章于 2024-04-12 10:00:17 发布

一路奔跑

最新推荐文章于 2024-04-12 10:00:17 发布

阅读量3k

点赞数

文章标签： p2p url 搜索引擎

本文链接：https://blog.csdn.net/renfengxing/article/details/7108281

版权

上一篇文章我没详细YY一下p2p方式的爬虫，实在是因为限制太大，不是技术问题，商业运作不好操作；

这东西其实不应该说是爬虫，而应该是一个利用P2P来进行信息交换的一个东西

简单介绍一下：

1：每个需要做爬虫的公司，部署一个p2p的node，此node负责：接受外部推送过来的URL，并且将此URL 1）发给别的node，2）对此URL自行响应；

2：内容提供商每有一篇新文章，选择几个node push 此URL即可；

这样的好处是：

1：爬虫不要费劲去爬了，等着URL即可；

2：内容提供商不要防爬了，随便将url push给几个node即可；

3：利用P2P快速传播，并且任何一个人的负载都很小；

另外：push可以增加类别，正文，时间，作者，摘要，tag等信息；

这是一个理想情况，退一步可以这样：

有3家做爬虫的小公司，各自做了个不伦不类的爬虫（反正就是没有专门做搜索引擎那种公司那么牛的爬虫），各自部署个node；各自将自己发现的URL发给另外两家，作为交换用；然后进行滚雪球；一旦滚大了，就很难停止了；

总之吧，我觉得这样的爬虫几乎是完美的，爬虫不费劲，内容提供商也不费劲；还能及时获得新URL；

操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比，可能不同，导致....

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一路奔跑

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

P2P小爬虫范例

olivesun88的博客

04-25

555

# -*- coding: UTF-8 -*- import urllib import requests import re import sys import chardet import pandas as pd from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf

【python爬虫】爬取网贷之家所有P2P平台基本数据并写入MYsql数据库

tywtan的博客

03-27

4647

使用的是python3做的一个爬虫，主要用于爬取网贷之家上面的数据。比较粗糙，很多该封装的地方没有进行封装。如果需要每天进行的话，还需要人工进行操作。后期会考虑挂靠服务器定时进行爬取，哈哈先这么搞，剩下的以后再说。import urllibimport requests #导入两个爬虫包，忘了是用哪个了，嘻嘻import re,time,pymysql #导入正则表达式、时间处理、mysql连接包...

参与评论您还未登录，请先登录后发表或查看评论

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）

05-21

系列教程《互联网金融爬虫怎么写》第一课，详细讲解了如何开发爬虫爬取一些有名的电商网站数据。对于学习爬虫的开发者有很大帮助，内含大量可直接运行的源码。第五课主要以爬取p2p网贷的理财产品信息为例。

P2P DHT sp

lxyfish111的专栏

03-23

909

DHT网络爬虫基于DHT网络构建了一个P2P资源搜索引擎。这个搜索引擎不但可以用于构建DHT网络中活跃的资源索引（活跃的资源意味着该网络中肯定有人至少持有该资源的部分数据），还可以分析出该网络中的热门分享资源。小虾不久前发布了一个这样的搜索引擎：磁力搜索。他也写博客对此稍作了介绍：写了个磁力搜索的网页－收录最近热门分享的资源。网络上其实也有其他人做了类似的应用：DHT monitoring

爬取P2P网站

08-20

爬取P2P网站

基于DHT的p2p网络资源爬虫.zip

04-08

【标题】"基于DHT的p2p网络资源爬虫.zip"所涉及的知识点主要集中在p2p网络、分布式哈希表（Distributed Hash Table，简称DHT）以及网络爬虫技术上。在这个项目中，开发者创建了一个能够爬取P2P网络资源的爬虫，特别...

php实现p2p中DHT网络爬虫，并提供搜索下载.zip

03-23

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

asp源码-HH500影院P2P免费asp 电影爬虫 v2009.10.28.zip

02-11

asp源码—HH500影院P2P免费asp 电影爬虫 v2009.10.28.zip asp源码—HH500影院P2P免费asp 电影爬虫 v2009.10.28.zip asp源码—HH500影院P2P免费asp 电影爬虫 v2009.10.28.zip asp源码—HH500影院P2P免费asp 电影爬虫 ...

基于p2p的分布式爬虫系统

04-11

### 基于P2P的分布式主题爬虫系统的关键知识点 #### 一、P2P网络基础 - **定义**: P2P（Peer-to-Peer）网络是一种分布式网络架构，其中每个节点既是服务的提供者也是消费者。在这种模型下，网络中的节点之间可以...

DHT开源爬虫p2pspider.zip

07-16

介绍 p2pspider 是一个 DHT 爬虫 BT 客户端的结合体, 从全球 DHT 网络里"嗅探"人们正在下载的资源, 并把资源的metadata(种子的主要信息)从远程 BT 客户端下载, 并生成资源磁力链接. 通过磁力链接, 你就可以下载到资源文件.用途你可以使用 p2pspider 打造私人种子库(比如: 海盗湾), 也可拿它做资源数据挖掘与分析。安装git clone https://github.com/Fuck-You-GFW/p2pspider使用使用前, 请确保你的 node 版本 >=0.12.0.'use strict';var P2PSpider = require('../lib');var p2p = P2PSpider({ nodesMaxSize: 200, // be careful maxConnections: 400, // be careful timeout: 5000});p2p.ignore(function (infohash, rinfo, callback) { // false => always to download the metadata even though the metadata is exists. var theInfohashIsExistsInDatabase = false; callback(theInfohashIsExistsInDatabase); });p2p.on('metadata', function (metadata) { // At here, you can extract data and save into database. console.log(metadata); });p2p.listen(6881, '0.0.0.0');目前只能放在有公网 IP 的主机上执行, 或者路由器设置端口转发(默认6881, UDP协议).贡献代码 fork 并拉取代码后，执行 npm install 安装依赖, 然后执行 node test/index.js 就可以看到测试效果。作者博客介绍：http://www.cnblogs.com/52web/p/5253697.html 标签：爬虫

探索GitCode上的宝藏：torrent-spider - 爬虫技术在P2P下载中的创新应用

gitblog_00017的博客

04-07

423

探索GitCode上的宝藏：torrent-spider - 爬虫技术在P2P下载中的创新应用项目地址:https://gitcode.com/bttown/torrent-spider 在寻求高效、便捷的文件共享方式时，我们发现了GitCode上一个名为torrent-spider的开源项目。它巧妙地结合了爬虫技术和BitTorrent协议，为我们提供了一种全新的P2P下载工具。本文将深入解...

金融爬虫python网贷,互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）

weixin_28801659的博客

03-27

673

java dht 爬虫_P2P中DHT网络爬虫

weixin_34450486的博客

02-23

540

DHT网络爬虫基于DHT网络构建了一个P2P资源搜索引擎。这个搜索引擎不但可以用于构建DHT网络中活跃的资源索引(活跃的资源意味着该网络中肯定有人至少持有该资源的部分数据)，还可以分析出该网络中的热门分享资源。小虾不久前发布了一个这样的搜索引擎：磁力搜索。他也写博客对此稍作了介绍：写了个磁力搜索的网页－收录最近热门分享的资源。网络上其实也有其他人做了类似的应用：DHT monitoring，C...

Python爬取p2pblack

鲜衣怒马少年时

11-08

1640

windows下Python操作mysql需要安装的驱动： mysql驱动(64位) 实例代码： # -*- coding: utf-8 -*- import urllib2 import urllib import re import json import sys import thread import time import MySQLdb.cursors relo

Python爬虫-网贷之家P2P机构排名查询

Yu_uuuuu的博客

08-30

1373

python采用3.X版本，依赖三方库BeautifulSoup/requests/pymysql 由于最近P2P暴雷事件，写一个爬虫定时去爬取网贷之家对各个公司的排名及当前状况的分析，分为经营正常和异常的公司。将数据存储到数据库中。 from bs4 import BeautifulSoup import requests import pymysql import datetime...

【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

码农的科研笔记

06-11

1692

《Web Scraper网页爬虫教程》是我以谷歌浏览器插件Web Scraper为爬虫工具，理论与实战结合的教程。如果大家有爬虫需求，欢迎大家公众号联系我，我可以免费帮忙爬取数据。关于我的更多学习笔记，欢迎您关注“武汉AI算法研习”公众号，公众号浏览此系列教程视觉效果更佳！ P2P数据平台是一个聚合现今众多P2P网贷平台的综合类网站，其收录了每个网贷平台的众多信息，包括借贷余额...

探索P2PSpider：分布式爬虫的新里程碑