大数据、算法
Chase888
这个作者很懒,什么都没留下…
展开
-
给定包含4300000000个32位整数的顺序文件,如何找出一个出现至少两次的整数
给定包含4300000000个32位整数的顺序文件,如何找出一个出现至少两次的整数 方法一:位向量标识 方法二:二分排序 由于4.3G>32位的整数空间,根据鸽笼原理,肯定会有重复的整数。搜索范围从所有的32位正整数开始(全部当成unsigned int,简化问题),即[0, 2^32),中间值即为2^31。然后遍历文件,如果小于2^31的整数个数大于N/2=2^31,则调整转载 2016-09-28 15:19:04 · 1633 阅读 · 0 评论 -
redis五种数据类型及常用命令-笔记
五种数据类型及相关命令 字符串 散列 列表 集合 有序集合 设置/新增 set key HSET key field value LPUSH key value RLPUSH key value SADD key member ZADD key score member 查询 get HGET key field H原创 2017-01-10 22:57:30 · 442 阅读 · 0 评论 -
Spark入门笔记
1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 比如官网给点例子,读取文档后,统计包含a字母的行数等。 2 环境怎么配置 下载,后解压即可。 3 怎么使用。 可以使用命令行 [./bin/pyspark] 载入文件 统计行数: >>> textFile.count() # Number of items原创 2017-06-28 11:36:12 · 325 阅读 · 0 评论 -
《Storm 入门》笔记及总结
Storm 读书笔记本书主要是翻译了《Getting Started With Storm》。通过一个简单的单词分析和统计的例子,作为入门例子介绍Storm。Storm 介绍Storm 是由twitter开发,并贡献给了apache。Storm,是一个分布式的,可靠的,容错的数据流处理系统。为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。三个核心组件简介:使用者原创 2017-11-13 20:16:47 · 294 阅读 · 0 评论 -
《大数据架构商业之路 从业务需求到技术方案》阅读笔记
1 本书以菜鸟和老司机对话的方式,以O2O互联网创业故事为背景。从基础业务需求出发,逐步介绍了不同场景下需要使用的和大数据架构中的相关技术。本书涉及到了很多大数据相关的技术。很多都是我们平时业务开发过程中需要用到的技术。2 主要包括:数据挖掘、机器学习商业智能等。 本书简单易懂 虽然有技术内容,但是讲讲都不是特别深,比较容易理解。3 对于有一些技术基础的读者,读起来会很顺畅。通过阅读这本书可以帮助指原创 2017-12-07 20:42:23 · 909 阅读 · 0 评论