大数据
文章平均质量分 91
春夏秋冬又一年
数据分析师
展开
-
java 如何处理大数据---技巧
众所周知,java在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法;例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶转载 2013-07-17 16:06:52 · 1535 阅读 · 0 评论 -
pig优化器之一(翻译pig wiki):combiner使用
Combiner原创 2015-09-04 22:14:32 · 879 阅读 · 0 评论 -
hbase 性能调优
转载自 :hbase性能调优一、服务端调优 1、参数配置 1)hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMe转载 2015-09-30 09:53:22 · 1034 阅读 · 0 评论 -
HBase java关键API
转载自 hbase java api几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Colu转载 2015-09-30 09:49:54 · 457 阅读 · 0 评论 -
solr5.3错误 Bad return type
solr 5.3 使用如下代码产生错误: HttpSolrClient solrSvr = new HttpSolrClient(url); SolrQuery query=new SolrQuery(); query.setQuery("xyz"); query.setStart(0); query.setRow原创 2015-10-09 17:53:07 · 1530 阅读 · 0 评论 -
maven hadoop hbase 依赖
由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题。 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96的jar包,通过maven编译项目的时候会出现找不到jar包导致编译失败。 通过网上的资料,得知Hbase 0.94后版本,直接添加Hbase-Client的依赖,转载 2016-02-17 13:50:08 · 2426 阅读 · 0 评论 -
大数据:spark环境部署
1 安装和使用spark1.1 安装spark我们主要以Windows环境为例介绍Spark的安装。 整个安装过程主要分为四个步骤:安装JDK、安装Scala、安装Spark、安装WinUtil。在Linux和Mac OS X下 安装Spark只需要完成前三步即可。1.1.1 安装JDKSpark采用Scala语言编写,而Scala程序是以JVM为运行环境的,因此需先安装JDK以支持Sp原创 2016-03-12 11:45:42 · 1033 阅读 · 0 评论 -
windows下 pycharm开发spark
一 部署本地spark环境1.1 安装好JDK 下载并安装好jdk1.7,配置完环境变量。1.2 Spark环境变量配置 去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应原创 2016-05-11 10:50:45 · 10944 阅读 · 4 评论 -
pig脚本总结
1 如果在宏中需要使用UDF,无需再宏中注册和定义该UDF,直接使用即可。因为pig的宏相当于直接将宏的代码与调用该宏的代码合并之后执行。2 宏中传入的字段解析错误。比如传入的日期字段,会莫名其妙的被解析为1970年的时间,比如: define public_flow_and_usernum_statistic (grouped_data,sel_data,date_time ,原创 2015-09-02 09:46:13 · 1606 阅读 · 0 评论 -
kafka关键问题解释
1 Kafka如何处理消费过的消息(1) 如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组原创 2015-09-09 16:41:51 · 1332 阅读 · 0 评论 -
Pig的一个小问题 (filter之后 没有数据)
写Pig的时候,如果需要对数据中某个字段进行 比较或者运算,尤其是使用Filter的时候。该字段最好是 bytearray类型,而不要用 int 或者 chararray类型。否则得不到数据--抽取话单文件中过程号为 attach的话单 统计set job.name 'lte_kpi_user_analysis_s1mme_attatch_15min';allData原创 2015-07-07 17:11:31 · 921 阅读 · 0 评论 -
Lucene多字段和多目录索引
http://kb.cnblogs.com/page/52644/1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。Lucene.net中的单个字段查询大家都比较熟悉,这里对字段content进行搜索Query q转载 2013-07-18 17:18:50 · 1437 阅读 · 0 评论 -
大数据技术概览----读《大数据管理:概念、技术与挑战》(孟小峰 慈祥著)
应导师要求研读一些论文。个人感觉这篇论文为我们面临的大数据一些关键技术做了比较全面权威的综述。我把其中一些关键地方做个笔记。 1.当前大数据带来的变革 图灵奖获得者、著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算3种范式.当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究领域已经无法很好地发原创 2013-09-11 21:08:23 · 3113 阅读 · 0 评论 -
win7使用VMware 下部署 hadoop集群(3台)过程及错误
整个安装过程 参考: http://blog.csdn.net/gobitan/article/details/13503717 注意 Ubuntu系统中 普遍存在的问题是: etc/hosts 文件中 会有个 127.0.1.1 hadoop1(你的本机名称) 一定要注释掉,否则后面 在安装ssh 服务的时候会出现诸多毛病,包括后面hadoop都原创 2013-12-31 16:02:20 · 920 阅读 · 0 评论 -
网页内容选取方法
本文引用一篇论文:http://sewm.pku.edu.cn/TianwangLiterature/Report/NCIS_TR_2007012.pdf 一种基于 LCS 的相似网页检测算法 前提:1. 网页中的噪音信息例如广告、版权信息等通常都出现在网页正文内容的头尾两端。我们需要获取中间文本等有用内容。 2. 计算 LCS并提取出的它的原创 2013-07-25 16:24:23 · 966 阅读 · 0 评论 -
流数据挖掘
流数据处理的限制: 1)分发速度非常快,必须及时处理,否则将永远丢失。2)即使分发速度较慢,同时多个数据流一起则超过了内存最大容量。 1.流数据抽样 问题描述:过去的一个月中典型用户提交的重复查询比率是多少。假设我们只存储其中十分之一的流元素 典型做法:对每个搜索查询产生一个随机数(比如0-9中间的一个随机数),并当且仅当为0时才存储。如果用户提交的查询足够多,原创 2013-10-14 23:00:41 · 1928 阅读 · 0 评论 -
Bloom Filter算法
一个布隆过滤器由以下几个部分组成 (1)n个位组成的数组,每个位初始值都是0 (2)一系列哈希哈书h1,h2,h3.....hk组成的集合。每个哈希函数将“键”值映射到上述n个桶(对应于位数组的n个位)中。 (3)m个键值组成的集合S。布隆过滤器的目的是让所有键值在S中的流元素通过,而阻挡大部分键值不再S中的流元素,哈希函数hi及S中的键值K,将每个hi(K)对应的位置原创 2013-07-18 20:33:34 · 1176 阅读 · 0 评论 -
kafka笔记(PacktPub.Apache.Kafka)
1 kafka提供了信息的生产者和消费者的无缝集成,同时不会阻塞信息的生产者,且生产者无需知道最终消费者是什么。 Kafka provides seamless integration between information of producers and consumers without blocking the producers of the information,and wi原创 2015-08-23 09:52:51 · 637 阅读 · 0 评论 -
kafka参数详解
转自:http://shift-alt-ctrl.iteye.com/blog/19303451.Broker主要配置##broker标识,cluster中,此ID必须唯一 broker.id=0 ##接受consumer/producer的链接端口 port=9092 ##用来维护集群状态,以及consumer消费记录 ##consumer和broker必须接转载 2015-08-31 10:23:04 · 1124 阅读 · 0 评论 -
ElasticSearch性能测试
ElasticSearch性能测试 原文翻译自:ElasticSearch官方性能测试基准测试场景注:ES中的文档类似一条记录。 数据 测试使用了860万份文档,取自Geonames的POI数据。 项 参数 文档数 860万 数据大小 2.8GB(JSON) 客户端线程数 8 每个bulk请求 5000份文档 服务器数目 1个或2个服务器配置翻译 2016-06-30 11:26:07 · 6251 阅读 · 0 评论