关闭
当前搜索:

[置顶] HBase并行写机制(mvcc)

HBase并行写机制 参考:https://blogs.apache.org/hbase/tags/mvcc...
阅读(38761) 评论(1)

[置顶] hbase的Region分裂代码分析

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439...
阅读(7262) 评论(1)

[置顶] zookeeper源码分析之leader选举

zookeeper默认选举算法为FastLeaderElection.java,其主要方法为FastLeaderElection.lookForLeader,选举的结果保存在类Vote中源码分析LOOKING 转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41855613...
阅读(35422) 评论(0)

[置顶] Hbase万亿级存储性能优化总结

转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403 一、服务端调优  1、参数配置    1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。...
阅读(9270) 评论(10)

[置顶] Apache Flume - File通道设计

原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的...
阅读(40092) 评论(2)

让keras训练深度网络时使用多个显卡

1、使用nvidia-smi pmon 查看linux系统的gpu情况,如下:显然是2张显卡,如何让它们都工作呢2、keras提供了keras.utils import multi_gpu_model使用多个显卡的功能:在原来的model基础上使用multi_gpu_model函数指定一下gpu个数即可:model =  multi_gpu_model(model, 2)完整列子如下(如粗黑色字体......
阅读(28) 评论(0)

python文件操作

使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object = open('thefile.txt')try:     all_the_text = file_object.read( )finally:     file_object.close( )注:不能把open语句放在try块里,因为当打开文件出现异......
阅读(88) 评论(0)

linux查看是否开启超线程

我们知道intel的cpu拥有超线程技术,可以为一个逻辑核心开启两个处理线程。通过查看物理CPU数,每个CPU的逻辑核数,CPU线程数可以得知是否开启了超线程。物理CPU数[root@localhost daxiang]# cat /proc/cpuinfo | grep "physical id" | sort | uniq physical id : 0 physical id ...
阅读(53) 评论(0)

Hive性能优化(全面)

Hive性能优化(全面)2018-02-02 Hadoop大数据应用1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不...
阅读(45) 评论(0)

ClickHouse中文社区成立了,Clickhouse中国第一次线下Meetup于2018年1月27在北京举行

当我们还在讨论如何用Hadoop、Spark这些巨无霸组件来分析大数据的时候,俄罗斯开源了一个极具战斗力的数据仓库:ClickHouse。值得一提的是在易观主办的有40多个国内超强团队参与的OLAP大赛中,获得开源组第一名的伙伴就使用了速度惊人的ClickHouse。ClickHouse是一个面向 OLAP 的分布式列式 DBMS,其特点:列式存储数据库关系型巨快无比分布式高可用PB级别为了更好的...
阅读(668) 评论(0)

查看安装的tensorflow版本号和路径

输入python,进入python命令行import tensorflow as tftf.__version__查询tensorflow安装路径为:tf.__path__结果如下:...
阅读(610) 评论(0)

Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在应用结束后将日志安全地移动到分布式文件系统HDFS,当应用(application)结束时,用户能通过 YARN 的命令行...
阅读(119) 评论(0)

最新Hive函数

LanguageManual UDF...
阅读(438) 评论(0)

网站统计指标定义

(一)流量统计 1. 独立用户数:在当前计算周期内,访问统计对象的不重复用户数。万瑞数据系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。同一浏览器在当前计算周期内多次访问同一统计对象时,该浏览器被计算为一个独立用户。 2. 页面浏览量:在当前计算周期内,统计对象的页面被访总和。当带有万瑞数据代码的页面每次在浏览器里完全显示的时候,会被记为一次页面浏览。 3. 独立IP数:在当前计算周期内...
阅读(232) 评论(0)

对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为 The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should p...
阅读(247) 评论(0)

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结Apache Atlas简介•面对海量且持续增加的各式各样的数据对象,...
阅读(786) 评论(0)

大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题 减少重复开发,开发通用的中间层数据,减少很多重复的计算 那么如何做到上述要点呢? 通常的办法是根据业务建立一套合理的数据分层模型 数据仓库的价值: 高 效 的 数 据 组 织 形 式 , 方 便 维 护 面 向 主 题 的 特 性 决 定 了 大 数 据 ...
阅读(3028) 评论(0)

2017易观OLAP算法大赛

2017易观OLAP算法大赛 大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个...
阅读(987) 评论(0)

2017易观OLAP算法大赛

【大赛背景】目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义比较简单,但计算过程比较复杂。市面上现有的解决方案在数据量较大的情况下,计算效率较低。为了更好地提升...
阅读(1392) 评论(1)

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

首先将ids_app_installed_top_1000_3_ratio_wrap_m_top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下,并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误1.${table_name}换myisam,我们的场景对事务没啥要求2.导入前修改参数和禁止索引更新mysql> SET S...
阅读(1091) 评论(0)
200条 共14页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:600801次
    • 积分:6383
    • 等级:
    • 排名:第4552名
    • 原创:127篇
    • 转载:71篇
    • 译文:2篇
    • 评论:61条
    最新评论