当前搜索:

[置顶] 2017易观OLAP算法大赛

【大赛背景】目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义比较简单,但计算过程比较复杂。市面上现有的解决方案在数据量较大的情况下,计算效率较低。为了更好地提升...
阅读(1117) 评论(1)

[置顶] HBase并行写机制(mvcc)

HBase并行写机制 参考:https://blogs.apache.org/hbase/tags/mvcc...
阅读(38536) 评论(1)

[置顶] hbase的Region分裂代码分析

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439...
阅读(7039) 评论(1)

[置顶] zookeeper源码分析之leader选举

zookeeper默认选举算法为FastLeaderElection.java,其主要方法为FastLeaderElection.lookForLeader,选举的结果保存在类Vote中源码分析LOOKING 转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41855613...
阅读(35198) 评论(0)

[置顶] Hbase万亿级存储性能优化总结

转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403 一、服务端调优  1、参数配置    1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。...
阅读(8377) 评论(9)

[置顶] Apache Flume - File通道设计

原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的...
阅读(39950) 评论(2)

查看安装的tensorflow版本号和路径

输入python,进入python命令行import tensorflow as tftf.__version__查询tensorflow安装路径为:tf.__path__结果如下:...
阅读(2) 评论(0)

Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在应用结束后将日志安全地移动到分布式文件系统HDFS,当应用(application)结束时,用户能通过 YARN 的命令行...
阅读(13) 评论(0)

最新Hive函数

LanguageManual UDF...
阅读(67) 评论(0)

网站统计指标定义

(一)流量统计 1. 独立用户数:在当前计算周期内,访问统计对象的不重复用户数。万瑞数据系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。同一浏览器在当前计算周期内多次访问同一统计对象时,该浏览器被计算为一个独立用户。 2. 页面浏览量:在当前计算周期内,统计对象的页面被访总和。当带有万瑞数据代码的页面每次在浏览器里完全显示的时候,会被记为一次页面浏览。 3. 独立IP数:在当前计算周期内...
阅读(99) 评论(0)

对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为 The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should p...
阅读(94) 评论(0)

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结Apache Atlas简介•面对海量且持续增加的各式各样的数据对象,...
阅读(350) 评论(0)

大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题 减少重复开发,开发通用的中间层数据,减少很多重复的计算 那么如何做到上述要点呢? 通常的办法是根据业务建立一套合理的数据分层模型 数据仓库的价值: 高 效 的 数 据 组 织 形 式 , 方 便 维 护 面 向 主 题 的 特 性 决 定 了 大 数 据 ...
阅读(2612) 评论(0)

2017易观OLAP算法大赛

2017易观OLAP算法大赛 大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个...
阅读(380) 评论(0)

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

首先将ids_app_installed_top_1000_3_ratio_wrap_m_top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下,并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误1.${table_name}换myisam,我们的场景对事务没啥要求2.导入前修改参数和禁止索引更新mysql> SET S...
阅读(603) 评论(0)

centos禁用ipv6

两步完成vi /etc/sysctl.conf net.ipv6.conf.all.disable_ipv6=1sysctl -p /etc/sysctl.conf...
阅读(217) 评论(0)

App统计指标定义

活跃用户 新增用户 累计用户 DAU/MAU 启动次数 日均启动次数 人均启动次数 单次使用时长(min) 人均使用时长(min) 留存用户 N日留存率(%) 访问人数 访问人数占比(%) 访问次数 访问次数占比(%) 单次访问时长(min) 人均访问时长(min) 跳出率(%) 平均安装的应用 平均打开的应用 关联强度...
阅读(445) 评论(0)

Redis3未授权访问漏洞导致服务器被入侵

Redis未授权访问漏洞...
阅读(2451) 评论(0)

赏心悦目风景二

赏心悦目风景...
阅读(276) 评论(0)

开源数据库中间件对比

本文比较了360(Atlas)、美团点评(DBProxy)、Kingshard、携程(DAL)、蘑菇街(TSharding)、阿里(TDDL)、当当(Sharding-JDBC 360)、MyCAT 共8种当下流行的开源数据库中间件,从总体来看mycat占据优势...
阅读(3163) 评论(1)
195条 共13页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:546831次
    • 积分:5864
    • 等级:
    • 排名:第4929名
    • 原创:124篇
    • 转载:69篇
    • 译文:2篇
    • 评论:60条
    最新评论