Sparkler:Spark上的爬虫

本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。


10633020d5a71eb36127560b24bb0348f14e90b3

8959ecb6ad39759d17034941955e949cb66cc642

08fcf4ae43969efc75d1de164b57a955e66e808f

d50aa937835c04f1de3ad40c4acd7470eb541ac5

537d198339a070daccc2e7a061cad2da3dc4cc45

3e9b56c4827e65f30f27bff6d9c7a0e20df5089c

cf4d6d54bd18cd7146badc9c4501c7ed57ce9cdc

4cf3b480c758f57012f46161521318c0dd1a0166

7a7e4404d2714f3f16a741b4a5fbb9b2fdf27c32

006143b63581c29d1328993a1afb380011e92ffb

c6c5b34623a4258ec7e39d6cc09c1e6cc039f197

880974766e9db77a2b80d029aae2f89a3aaf1469

65edf31d9da9612291b0b544e2ecb491f7061726

da1b82d8337614e0603497b650d02aa23461e844

31e5b03840efd19370061d06c2b68d0ee924e6ff

5d3166fa8825705f96254387c013290a1d745e5d

2e29f9702bdd00aa85c5760eae768aa4353bef44

071138ccb8068a2a81af8171cecb82148bde766f

6226cdb8b7b052608525f6a46ae92c890e91f9a7

de68e5beffb6b7974afe8e8e1cb961f81a3c68dc

d57f9d44d244569acb02056d53c0b91d0c9327a7

b2fdca30592c01a2ea016de583c8f0a814701c71

d7da30b0d2bb6fb86843430edb67714c8a751114

0cee7ef8316df00715b90518d229925cebd80ea8

5e38c8e49c4e91fbb1f7e2a8d587e4720730be0b

083e032f7255bd1d815edfb2390fbe763d95a71f

19ec1ec97180b798a52774e0721c6406fc299444


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值