大数据、算法
Chase888
这个作者很懒,什么都没留下…
展开
-
给定包含4300000000个32位整数的顺序文件,如何找出一个出现至少两次的整数
给定包含4300000000个32位整数的顺序文件,如何找出一个出现至少两次的整数方法一:位向量标识方法二:二分排序由于4.3G>32位的整数空间,根据鸽笼原理,肯定会有重复的整数。搜索范围从所有的32位正整数开始(全部当成unsigned int,简化问题),即[0, 2^32),中间值即为2^31。然后遍历文件,如果小于2^31的整数个数大于N/2=2^31,则调整转载 2016-09-28 15:19:04 · 1633 阅读 · 0 评论 -
redis五种数据类型及常用命令-笔记
五种数据类型及相关命令 字符串散列列表集合有序集合 设置/新增set keyHSET key field valueLPUSH key valueRLPUSH key valueSADD key memberZADD key score member 查询getHGET key fieldH原创 2017-01-10 22:57:30 · 442 阅读 · 0 评论 -
Spark入门笔记
1 什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。比如官网给点例子,读取文档后,统计包含a字母的行数等。2 环境怎么配置下载,后解压即可。3 怎么使用。可以使用命令行[./bin/pyspark]载入文件统计行数:>>> textFile.count()# Number of items原创 2017-06-28 11:36:12 · 325 阅读 · 0 评论 -
《Storm 入门》笔记及总结
Storm 读书笔记本书主要是翻译了《Getting Started With Storm》。通过一个简单的单词分析和统计的例子,作为入门例子介绍Storm。Storm 介绍Storm 是由twitter开发,并贡献给了apache。Storm,是一个分布式的,可靠的,容错的数据流处理系统。为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。三个核心组件简介:使用者原创 2017-11-13 20:16:47 · 294 阅读 · 0 评论 -
《大数据架构商业之路 从业务需求到技术方案》阅读笔记
1 本书以菜鸟和老司机对话的方式,以O2O互联网创业故事为背景。从基础业务需求出发,逐步介绍了不同场景下需要使用的和大数据架构中的相关技术。本书涉及到了很多大数据相关的技术。很多都是我们平时业务开发过程中需要用到的技术。2 主要包括:数据挖掘、机器学习商业智能等。 本书简单易懂 虽然有技术内容,但是讲讲都不是特别深,比较容易理解。3 对于有一些技术基础的读者,读起来会很顺畅。通过阅读这本书可以帮助指原创 2017-12-07 20:42:23 · 910 阅读 · 0 评论