![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
王彦清
清心攻读世间文,華年志为天下事。
展开
-
腾讯面试题:40亿个QQ号码如何去重?
今天,我们来聊一道常见的考题,也出现在腾讯面试的三面环节,非常有意思。具体的题目如下:文件中有40亿个QQ号码,请设计算法对QQ号码去重,相同的QQ号码仅保留一个,内存限制1G。这个题目的意思应该很清楚了,比较直白。为了便于大家理解,我来画个动图玩玩,希望大家喜欢。能否做对这道题目,很大程度上就决定了能否拿下腾讯的offer,有一定的技巧性,一起来看下吧。在原题中,实际有40亿个QQ号码,为了方便起见,在图解和叙述时,仅以4个QQ为例来说明。方法一:排序很自然地,最...转载 2021-12-20 07:46:32 · 1368 阅读 · 0 评论 -
筑巢大数据,引得凤凰来
1月19日公布的一份“人才前景趋势大数据报告”显示,2017年三季度到2018年四季度,贵阳以7.17%的高端人才流入率超过西安、成都,名列全国第五,西部第一。以往的人才洼地成了如今的人才聚集地,人才流的背后是数据流的变化。2018年4月,腾讯官微发布了要在贵州建立“鹅厂”的消息。企鹅是腾讯标志,“鹅厂”代表腾讯最重要的大数据中心,这意味着所有微信、QQ用户的核心信息都将储存在贵州。建在山洞里...原创 2019-01-25 04:21:39 · 301 阅读 · 0 评论 -
MongoDB的优点和缺点
优点面向文档存储(类JSON数据模式简单而强大)动态查询全索引支持,扩展到内部对象和内嵌数组查询记录分析快速,就地更新高效存储二进制大对象 (比如照片和视频)复制和故障切换支持Auto- Sharding自动分片支持云级扩展性MapReduce 支持复杂聚合商业支持,培训和咨询转载 2017-12-08 19:14:24 · 14504 阅读 · 0 评论 -
CentOS 7下安装Redis 4
Redis是一个高性能的,开源key-value型数据库。是构建高性能,可扩展的Web应用的完美解决方案,可以内存存储亦可持久化存储。1 . 下载Redis 目前,最新的Redist版本为4.0.2,使用wget下载,命令如下:# wget http://download.redis.io/releases/redis-4.0.2.tar.gz2 . 解压Redis 下载完原创 2017-10-13 14:48:38 · 4898 阅读 · 2 评论 -
关于Error contacting service. It is probably not running错误的解决办法
如果zookeeper启动时出现Error contacting service. It is probably not running的错误的时候,一般情况下问题存在于防火墙开启的原因,关闭防火墙就可以了。CentOS 7默认使用的是firewall作为防火墙,使用iptables必须重新设置一下。Centos7 关闭防火墙CentOS 7.0默认使用的是firewall作为防火原创 2017-10-24 11:36:18 · 4076 阅读 · 1 评论 -
kafka安装与测试
下载安装下载地址 最新版本kafka_2.12-0.11.0.0.tgz.zhouhh@/Users/zhouhh/java$ curlhttp://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.0/kafka_2.12-0.11.0.0.tgz-o kafka_2.12-0.11.0.0.tgz zhouhh@/Users/zh转载 2017-09-29 12:54:29 · 6150 阅读 · 0 评论 -
kafka - The type scala.ScalaObject cannot be resolved.
初学者kafka的java客户端遇到了一个问题。public class SimpleKafkaProducer { private static final Logger logger = Logger.getLogger(SimpleKafkaProducer.class); private void execMsgSend() { Proper原创 2017-10-10 16:36:47 · 2019 阅读 · 0 评论 -
你不能不知道的14个大数据专业词汇
本地数据库(LDB/Local Data Base)本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域网。典型的本地数据库有Paradox、dBASE、FoxPro和ACCCSS。数据采集(Data Acquisition,DAQ)数据采集又称数据获取,将被测试对象的各种参量通过各转载 2017-09-29 18:16:05 · 276 阅读 · 0 评论 -
Hadoop和大数据
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据转载 2017-09-29 17:59:06 · 424 阅读 · 0 评论 -
CentOS7安装spark集群
1. 关闭防火墙systemctl stop firewalldsystemctl stop firewalld如果不关闭防火墙,需要为防火墙添加进站出站规则,否则无法访问spark的管理页面 2. 修改机器名hostnamectl set-hostname sm其他2台机器同上 3. 修改hostvim /etc/hosts 4. 配置ssh转载 2017-09-29 12:45:49 · 2840 阅读 · 1 评论 -
CentOS7环境下搭建storm集群
使用的zookeeper集群为:11.12.112.215:2181,11.12.112.216:2181,11.12.112.217:2181并且zookeeper集群已经启动成功;下面将以11.12.112.210服务器上为例,说明storm的部署过程:1、解压storm到目录/home/jason/bigdata/下:[root@clsserv210bigdata]# pwd转载 2017-09-29 12:50:05 · 1575 阅读 · 0 评论