关闭

用 Docker 搭建 Spark 集群

简介 Spark 是 Berkeley 开发的分布式计算的框架,相对于 Hadoop 来说,Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到广泛关注。 熟悉 Hadoop 的同学也不必担心,Spark 很多设计理念和用法都跟 Hadoop 保持一致和相似,并且在使用上完全兼容 HDFS。但是 Spark 的安装并不容易,依赖包括 Java、Scala、HD...
阅读(6414) 评论(0)

用 mongodb + elasticsearch 实现中文检索

而 elasticsearch 可以很好的支持各种语言的全文检索,但我们暂时又不想切换到 elasticsearch 作为后端数据库。 当然,可以在 web 应用中存储数据的时候,再主动写一份到 elasticsearch,但这无疑污染了原有的业务逻辑。 在 IT 行业,只要有需求的地方,必然早已有了一堆好用或者不好用的开源轮子。 幸运地是,现在已经有了一些转换方案,可以将 mo...
阅读(7257) 评论(1)

网络大数据分析 -- 使用 ElasticSearch + LogStash + Kibana 来可视化网络流量

简介 ELK 套装包括 ElasticSearch、LogStash 和 Kibana。 其中,ElasticSearch 是一个数据搜索引擎(基于 Apache Lucene)+分布式 NoSQL 数据库;LogStash 是一个消息采集转换器,类似 Syslog,可以接收包括日志消息在内的多种数据格式,然后进行格式转换,发送给后端继续处理;Kibana 是一个 Web 前段,带有强大...
阅读(7520) 评论(0)

网络天然是大数据的,大数据天然是网络的

The network is naturally bigdataing, while bigdata is inherently networking. --yeasy@blog 用英文表达似乎更加准确一些。 计算机科学发展了半个世纪,而网络的出现极大推动了计算机相关技术的爆发式进步。 计算机或网络领域所研究的典型问题,往往都是追求高性能、精确、准确,而大数据技术则往往提供一...
阅读(863) 评论(0)
    个人资料
    • 访问:266400次
    • 积分:3616
    • 等级:
    • 排名:第9065名
    • 原创:104篇
    • 转载:0篇
    • 译文:1篇
    • 评论:48条
    最新评论