![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 86
山鹰的天空
追求漂亮的技术,让用户有最好的体验。
展开
-
什么是HDFS?
什么是HDFS?•在一个多节点块集群存储文件。•在节点间复制模块•主从架构。 • 没有文件更新• 一次写,多次读• 大数据块 顺序读模式• 为批处理设计HDFS主服务器特点:NameNode- 运行在单个节点服务器上作为主处理器? 存有文件的元数据(哪个数据块在哪里)? 直接访问文件的客户端• SecondaryNameNode-转载 2015-06-02 11:57:31 · 2019 阅读 · 0 评论 -
Hbase之插入数据
Hbase之插入数据 /** * Created by similarface on 16/8/17. */import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.Table转载 2017-07-21 15:39:22 · 1378 阅读 · 0 评论 -
hbase中创建表、插入数据,更新数据,删除数据
所需要的包有:commons-codec-1.4.jarcommons-logging-1.1.1.jarHadoop-0.20.2-core.jarHbase-0.90.2.jarlog4j-1.2.16.jarzookeeper-3.3.2.jar 背景:假设有一个不知道是干什么表:)表里需要存入人员和其相对应的部门信息 代码:i转载 2017-07-21 15:38:09 · 1747 阅读 · 0 评论 -
Storm-HBase集成--配置和开发
1 Storm0.9.3中的对HBase的集成Storm新版本0.9.3中重新整理和加入了对Hbase的集成模块,除了基本的Bolt和Spout之外,加入了用于访问hbase的Trident。利用这个Trident,我们可以更加快速的编写Storm访问HBase的代码逻辑。关于Storm-HBase模块中,几个主要的功能类如下:类名介绍转载 2017-07-21 15:37:23 · 859 阅读 · 0 评论 -
kafka+storm+hbase架构设计
kafka+storm+hbase架构设计kafka+storm+hbase架构设计:kafka作为分布式消息系统,实时消息系统,有生产者和消费者;storm作为大数据的实时处理系统;hbase是apache hadoop 的数据库,其具有高效的读写性能!这里把kafka生产的数据作为storm的源头spout来消费,经过bolt处理把结果保存到hbase。基础环境:这里就不介转载 2017-07-21 15:36:39 · 396 阅读 · 0 评论 -
数据的随机查询在不同数据库中的不同语法
ms sql server : select top 100 * from demo order by newid() my sql server:select * from demo order by rand() limit 10 oracle: select * from demo order by sys_guid() where num>10原创 2016-08-23 15:32:12 · 319 阅读 · 0 评论 -
Sphinx+MySQL+PHP 12亿DNS数据秒查
最近得到一个接近12亿的全球ns节点的数据,本来想用来做一个全国通过dns反查域名然后进行全国范围的网站收集和扫描的,后来发现网站的数量不是很准确,加上一个人的精力和财力实在难以完成这样一个庞大的任务,就没有做下去,只留下了这个搭建的笔记。文本格式,简单的文本搜索,速度太慢,一次搜索接近花掉5-10分钟时间,决定将其倒入数据库进行一次优化,速度应该能提升不到,电脑上只有AMP的环境,那么就转载 2016-07-09 09:19:50 · 1749 阅读 · 0 评论 -
Sphinx在windows下安装使用[支持中文全文检索]
前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统。网上的资料大多是在linux环境下的安装使用,当然,作为生产环境很有必要部署在*nix环境下,作为学习测试,还是windows环境比较方便些。本文旨在提供一种便捷的方式让Sphinx在windows下安装配置以支持中文全文检索,配置部分在linux下通用。一、关于原创 2016-01-20 14:16:59 · 3445 阅读 · 0 评论 -
大数据
十道海量数据处理面试题与十个方法大总结摘要:本文将向您讲述诸多数据处理面试题以及方法的总结。 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。转载 2015-06-12 16:49:02 · 485 阅读 · 0 评论 -
从零搭建mongo分片集群的简洁方法
一、目录 1、mongo路径,config数据路径,shard数据路径 2、shard数据路径的结构(共6个分片,分别位于D盘和E盘) 1)D盘中 2)E盘中 3、启动各个服务端的批处理 1)启动configs服务器mongod --转载 2015-06-04 10:49:55 · 680 阅读 · 0 评论 -
Hadoop大数据批处理 -Map/Reduce
Map/reduce基础逻辑函数: Mappers and Reducers.• 开发者编写map和reduce 函数,然后提交Jar给Hadoop集群• Hadoop 处理分发Map 和 Reduce任务跨集群.• 批处理MapReduce的守护者 Daemons•JobTracker (Master)- 管理MapReduce 工作, 分配任务到不同节点转载 2015-06-02 11:59:46 · 1321 阅读 · 0 评论 -
hadoop
Hadoop是什么? Hadoop是一个基于Java开发的处理巨大数据量的平台.软件, 能够分布式运行且复制数据,也可以在一个集群上运行多个进程,管理由用户创建的并行任务,可以处理非结构化数据 半结构化数据和结构化数据,实现灵活的数据分析和机器学习,低成本且可扩展。 Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问,并且适合于拥有大数据集的应用程序使用。转载 2015-06-02 11:56:40 · 500 阅读 · 0 评论 -
大数据
你可能会问什么是大数据,它几乎是每一个业务领域的最新趋势?难道仅仅是炒作? 事实上"大数据"是一个非常简单的术语 - 它只是说 - 一个非常大的数据集。有多大?确切答案是"你能想象的一样大"! 这个数据集为何能如此大规模?因为数据可能来自无处不在,无时不变的: RFID传感器,流量数据,用于收集气象信息传感器,手机的GPRS包,社交媒体网站的发布,数码照片和视频,在网上购买转载 2015-06-02 11:57:21 · 630 阅读 · 0 评论 -
如何在hbase中快速插入10万条数据
我们知道每一条put操作实际上都是一个rpc操作,它将客户端数据传送到服务器然后返回。这只是折小数据量的操作,如果有一个应用需要插入十万行数据到Hbase表中,这样处理就太不合适了。 hbase的api配备了一个客户端的些缓冲区,缓冲区负责手机put操作,然后调用rpc一次性将put送往服务器。 下面是一个插入十万行到一个表的代码:[html] view plai转载 2017-07-21 15:46:45 · 2667 阅读 · 0 评论