网页宝: 尊重内容提供者意愿的反爬虫产品

网页宝:

华虫科技有限公司http://www.huaworm.com/index-p.html

依靠文字矩阵变换来提高蜘蛛爬虫软件抓取的代价.
--------------------------------------------
1:依靠文字矩阵变换
什么是文字矩阵变换?
 线性变换/非线性变换
 让传输文字和显示文字有差异,使得所见不容易所得.
为什么不是验证码方式?
A验证码方式主要用于专有信息,比如机器暴力抓取个人信息
B验证码影响用户体验
为什么不把文字转为图片方式?
a动态信息,如评论,变成图片,会增加网站的复杂度和维护成本
b图片负载太多文字会不清晰,因为现代浏览器和显示器对文字的显示做了处理.


2:算法库素材化
a对网站要做技术上的处理(算法),就得工程师修改代码,测试代码.部署代码.
b对网站替换图片(素材),只需要重新部署图片
c我们将算法变成素材,网站运营方能随时变换算法.

3:算法云端化.
将算法放到云端,网站会不断随时的变换显示的算法


第一,

互联网缺乏原创保护的有效手段

1:BAT等限制对手抓取信息. 用道德文件robots.txt
2:BAT等保护自己的领域
淘宝屏蔽百度抓取、微信屏蔽淘宝链接
百度与360“爬虫”之争
优酷诉百度盗版案
3:你的感受:搜索到原创内容较少,相应软文较多


第二,

解决方案:
1:robots.txt:目前被广泛应用(道德约束)
2:访问频率和验证码控制:目前被广泛应用(效益不明显)
3:原创的网页保护方案(效益高)
  文字矩阵变换:所见但不易所得,大幅度增加抓取成本.
  算法库素材化:反抓取算法素材化/云端话,减少保护成本.

第三,

用户群:有内容保护需求的网络信息提供者
1原创小说网:提供系统
2自媒体:提供平台
3垂直网站:提供产品
4大型网站:提供组件模块

 

第四,竞争力
1:模式带有原创性质
2:技术上做过原形验证,核心已经完成
3:需要一定资金,完成产品化,有插件性质,所以不容易被竞争对手复制
4:有益于行业生态

第五,市场
1:产品/插件/技术服务
  对网站提供解决方案
2:平台
  发布平台:提供给自媒体.企业.消息网站发布需要保护的内容
3:占领道德高点,提供延伸服务

第六,价值
1:服务/插件/产品/带来价值
2:有效保护原创,带来社会/品牌价值

第七,竞争对手
主流网站都有内容保护的投入,但比较分散和技术成果不复制,导致保护成本高。
目前没有发现专门的产品

第八,优点
1保护方:内容保护的方法素材易复制,易部署和运营。
2抓取/窃取方:面对对方快速变化,增加了成本

 
第九,财务分析
已投入:15个人月开发,5个人月分析
1核心转换模块,已经完成
2插件产品:开发30%,
3平台:0%

第一年:
2014 投入 300万
1:公司日常开销
2:销售团队, 2人
3,产品团队, 1人
4:技术团队, 5人
5:APP开发(外包)
6:平台化
收入 100万

第二年:
2015 预计:
1:产收平衡
2:行业内有一定知名度

第三年:
2016 预计:
1:占领市场
2:知名度
3:衍生产品和服务


第十,团队成员

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值