自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

  • 博客(299)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

转载 LRU算法四种实现方式介绍

LRU全称是Least Recently Used,即最近最久未使用的意思。LRU算法的设计原则是:如果一个数据在最近一段时间没有被访问到,那么在将来它被访问的可能性也很小。也就是说,当限定的空间已存满数据时,应当把最久没有被访问到的数据淘汰。实现LRU     1.用一个数组来存储数据,给每一个数据项标记一个访问时间戳,每次插入新数据项的时候,先把数组中存在的数据项的时间戳自增,并将新数据项的时...

2018-07-04 19:03:40 1481

转载 一篇推文到底能带来多少流量?UTM参数玩转流量识别与追踪

APP运营工作中的每一步都会讲求ROI(投资回报率),我们进行各种形式的推广,每种推广带来的流量效果如何呢?这就是本文探讨的内容——使用UTM参数进行流量识别。以下为本文的文章结构图: ▌令无数小编垂泪的流量迷思业务场景1:运营同学A每天都会发至少一篇文章到微信公众号,在阅读原文处加上跳转链接,方便用户跳转到官网/活动页面。 业务场景2:运营同学B每天发至少一篇文章到知乎专栏或简书,在文章中加入跳...

2018-07-04 18:33:02 2040

转载 linux使用FIO测试磁盘的iops

linux使用FIO测试磁盘的iops博客分类: IO FIO是测试IOPS的非常好的工具,用来对硬件进行压力测试和验证,支持13种不同的I/O引擎,包括:sync,mmap, libaio, posixaio, SG v3, splice, null, network, syslet, guasi, solarisaio 等等。fio 官网地址:http://freshmeat.net/proj...

2018-06-28 18:25:59 1496

转载 jdk8 GC之详解CMS收集过程和日志分析

话题引入让我们先简单的看下整个堆年轻代和年老代的垃圾收集器组合(以下配合java8完美支持,其他版本可能稍有不同),其中标红线的则是我们今天要着重讲的内容:ParNew and CMS"Concurrent Mark and Sweep" 是CMS的全称,官方给予的名称是:“Mostly Concurrent Mark and Sweep Garbage Collector”;年轻代:采用 sto...

2018-06-21 18:23:56 3408

转载 运营干货| 用户触达36计,和用户来次亲密接触

运营干货| 用户触达36计,和用户来次亲密接触 周长清 2018-05-25 15:47数据分析, 用户召回, 用户触达, 用户运营, 精细化运营中年油腻的人可能都听过《第一次的亲密接触》,剧情梗概是痞子蔡在网络上因一篇Plan邂逅自己的女神轻舞飞扬,在一来二去的网上聊天和之后的见面……如果网站/APP就是痞子蔡”,除了明确的目标,还要有绝美的Plan才能高效触达到如女神般的用户。 无论有多么强...

2018-06-13 09:39:13 2836

原创 HBase之Rowkey设计总结及易观方舟实战篇

一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...

2018-06-02 21:52:46 6436 2

转载 几张图看懂高级经理人与普通管理者的区别

普通管理者的对下属的态度情商是管理者重要的特质,高情商在管理者中主要表现为情绪稳定。对于初级管理者而言,他们的情绪很容易被员工的行为左右,并不能及时的调整,员工一旦出错或者是工作表现不理想,初级管理者就会陷入到负面的情绪中。领导力发展项目发现,很多技术型管理者表示,其实他们真心不愿意带团队,其中重要的原因是在于带领团队的那种挫败感带来的负面情绪,实在无法忍受,还是做技术简单! 除此之外,给初级管理...

2018-05-30 19:08:08 1560

转载 以获客为目标 ,如何从0到1实现用户增长?

以获客为目标 ,如何从0到1实现用户增长? 周长清 2018-04-11 18:08UTM, 代码部署, 留存分析, 网站分析, 转化漏斗每个网站都有目标。如果网站以获客为目标,那么就需要尽可能地让客户留下自己的信息,即我们常说的销售线索。网站目标确定后又该如何实现呢?首先需要对这个目标进行分解。 获客目标解析 ▌业务+技术,双重角度把握网站背景信息把握网站的关键背景信息,主要从两个角度进行--...

2018-05-26 00:12:43 1691

转载 那些100%被浪费的运营预算,其实本可以避免

那些100%被浪费的运营预算,其实本可以避免 仲志成 2018-04-11 17:41广告屏蔽插件, 用户召回, 用户触达, 精细化运营, 节支随着数字技术的迅速发展,运营、产品和营销人员可以使用的数字化运营及营销推广手段也越来越多。从近几年该领域B2B公司数量激增的生态板图中,我们可以看出这一裂变式的发展。 2011-2017 推广营销生态领域版图裂变  在丰富的数字化手段中,有一种基于用户生...

2018-05-22 19:49:54 751

转载 用户召回推送消息到达率低?用这4问推出最优解

用户召回推送消息到达率低?用这4问推出最优解 张晓亮 2018-04-11 17:08App后台进程促活, 到达率, 推送消息, 最优解, 用户召回在消息推送这件事上,国内无法使用谷歌官方的GCM,各个ROM厂商对消息推送的实现也存在一定差异,甚至同一厂家开发的不同版本ROM在兼容性上都存在差异。在此局面下,为了尽量提高消息的到达率,大至 ROM 厂商,小至各种提供推送服务平台都在各显神通。 ▌...

2018-05-22 19:28:22 1503

原创 大数据分析的下一代架构--IOTA架构[上]

IOTA是什么?你是否为下一代大数据架构做好准备?经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lam...

2018-04-22 07:37:51 7861 3

原创 mac下ll命令使用

Create a file named "~/.profile" and add the following line to it:alias ll='ls -lGh'Restart your terminal session。

2018-04-22 07:33:12 1431

原创 工作要做对,更要做到位

日本的管理人员在布置工作内容的时候会把问题交待五遍:    第一遍陈述问题。            渡边君,到超市打瓶酱油?    第二遍重复问题。            渡边君,请重复下我刚才说的。于是渡边君就又重复了一次。    第三遍目的。            渡边君,你知道我为什么让你去打酱油吗?渡边会说厨房用吧。    第四遍意外。            渡边君,你觉得去打酱油会遇到什...

2018-04-18 22:28:34 783

原创 class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理

 [2017-06-15 19:33:14,716] ERROR [ReplicaFetcherThread-0-0], Error for partition [3_7_0_20170615,6] to broker 0:class kafka.common.NotLeaderForPartitionException (kafka.server.ReplicaFetcherThread)[20...

2018-03-31 14:21:10 6785

转载 Hive实现分组排序或者分页

使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 表示根据COL1分组,在分组内部根据 COL2排序,而此函数...

2018-03-27 23:24:42 4594

转载 五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT)

五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT)发表于: 互联网 | 作者: 博客教主标签: Apache,BSD,GPL,LGPL,MIT,协议,开源当Adobe、Microsoft、Sun等一系列巨头开始表现出对”开源”的青睐时,”开源”的时代即将到来!现今存在的开源协议很多,而经过Open Source Initiative组织通过批准的开源协议目前有58种(http:/...

2018-03-23 17:43:21 1259

原创 永久关闭linux swap

一般来说,Linux的虚拟内存会根据系统负载自动调整。内存页(page)swap到磁盘会显著的影响Kafka的性能,并且Kafka重度使用page cache,如果VM系统swap到磁盘,那说明没有足够的内存来分配page cache。 避免swap的一种方式是设置swap空间为0。但是,swap会在系统崩溃时提供安全机制,或者会在out of memory的情况下阻止操作系统 kill 掉进程。...

2018-03-22 16:47:05 54383

原创 journalnode Can't scan a pre-transactional edit log异常处理

一个测试环境hadoop集群由于磁盘满导致宕机,启动后发现journalnode报如下异常:2018-03-19 20:48:04,817 WARN  namenode.FSImage (EditLogFileInputStream.java:scanEditLog(359)) - Caught exception after scanning through 0 ops from /data1_...

2018-03-20 17:03:58 3339

原创 该虚拟机的某个磁盘已经由虚拟机或者快照使用 问题解决

解决方式如下:1)删除虚拟机配置文件下面的.lck文件2)删除类型为快照的.vmsn/.vmsd文件然后重启虚拟机即可

2018-03-19 02:19:29 16331 5

转载 np.linalg.norm(求范数)

1、linalg=linear(线性)+algebra(代数),norm则表示范数。2、函数参数[python] view plain copyx_norm=np.linalg.norm(x, ord=None, axis=None, keepdims=False)  ①x: 表示矩阵(也可以是一维)②ord:范数类型向量的范数:矩阵的范数:ord=1:列和的最大值ord=2:|λE-ATA|=0...

2018-03-19 00:50:49 5156

原创 大数据存储平台调优之Hadoop优化

大数据存储平台调优之Hadoop优化在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面 1、 HDFS方面:1> 存储格式的选择对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。目前hadoop...

2018-03-15 23:22:54 2690

原创 大数据存储平台之异构存储实践

经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,...

2018-03-13 10:28:11 5822

原创 让keras训练深度网络时使用多个显卡

1、使用nvidia-smi pmon 查看linux系统的gpu情况,如下:显然是2张显卡,如何让它们都工作呢2、keras提供了keras.utils import multi_gpu_model使用多个显卡的功能:在原来的model基础上使用multi_gpu_model函数指定一下gpu个数即可:model =  multi_gpu_model(model, 2)完整列子如下(如粗黑色字体...

2018-02-17 18:26:10 7655 2

转载 python文件操作

使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object = open('thefile.txt')try:     all_the_text = file_object.read( )finally:     file_object.close( )注:不能把open语句放在try块里,因为当打开文件出现异...

2018-02-16 12:25:12 601

原创 linux查看是否开启超线程

我们知道intel的cpu拥有超线程技术,可以为一个逻辑核心开启两个处理线程。通过查看物理CPU数,每个CPU的逻辑核数,CPU线程数可以得知是否开启了超线程。物理CPU数[root@localhost daxiang]# cat /proc/cpuinfo | grep "physical id" | sort | uniqphysical id : 0physical id

2018-02-07 19:35:10 2377

转载 Hive性能优化(全面)

Hive性能优化(全面)2018-02-02 Hadoop大数据应用1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不

2018-02-05 12:06:05 1051

原创 ClickHouse中文社区成立了,Clickhouse中国第一次线下Meetup于2018年1月27在北京举行

当我们还在讨论如何用Hadoop、Spark这些巨无霸组件来分析大数据的时候,俄罗斯开源了一个极具战斗力的数据仓库:ClickHouse。值得一提的是在易观主办的有40多个国内超强团队参与的OLAP大赛中,获得开源组第一名的伙伴就使用了速度惊人的ClickHouse。ClickHouse是一个面向 OLAP 的分布式列式 DBMS,其特点:列式存储数据库关系型巨快无比分布式高可用PB级别为了更好的

2017-12-23 23:26:40 11572 1

原创 查看安装的tensorflow版本号和路径

输入python,进入python命令行import tensorflow as tftf.__version__查询tensorflow安装路径为:tf.__path__结果如下:  

2017-12-10 21:56:33 17686 1

原创 Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在应用结束后将日志安全地移动到分布式文件系统HDFS,当应用(application)结束时,用户能通过 YARN 的命令行

2017-12-09 21:32:19 2932

原创 最新Hive函数

LanguageManual UDF

2017-11-23 18:35:55 1631

原创 网站统计指标定义

(一)流量统计 1. 独立用户数:在当前计算周期内,访问统计对象的不重复用户数。万瑞数据系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。同一浏览器在当前计算周期内多次访问同一统计对象时,该浏览器被计算为一个独立用户。 2. 页面浏览量:在当前计算周期内,统计对象的页面被访总和。当带有万瑞数据代码的页面每次在浏览器里完全显示的时候,会被记为一次页面浏览。 3. 独立IP数:在当前计算周期内

2017-11-09 14:51:16 1782

转载 对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下:foreachRDD(func)的官方解释为The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should p

2017-11-09 11:36:47 2707 1

原创 大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结Apache Atlas简介•面对海量且持续增加的各式各样的数据对象,

2017-09-21 14:54:12 19949 6

原创 大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题减少重复开发,开发通用的中间层数据,减少很多重复的计算那么如何做到上述要点呢? 通常的办法是根据业务建立一套合理的数据分层模型数据仓库的价值:高 效 的 数 据 组 织 形 式 , 方 便 维 护 面 向 主 题 的 特 性 决 定 了 大 数 据

2017-09-05 22:34:18 5959

原创 2017易观OLAP算法大赛

2017易观OLAP算法大赛 大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个

2017-08-09 15:26:53 1504

原创 2017易观OLAP算法大赛

【大赛背景】目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义比较简单,但计算过程比较复杂。市面上现有的解决方案在数据量较大的情况下,计算效率较低。为了更好地提升

2017-08-03 10:15:08 3405 1

原创 mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

首先将ids_app_installed_top_1000_3_ratio_wrap_m_top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下,并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误1.${table_name}换myisam,我们的场景对事务没啥要求2.导入前修改参数和禁止索引更新mysql> SET S

2017-07-16 11:38:53 11718 1

原创 centos禁用ipv6

两步完成vi /etc/sysctl.conf net.ipv6.conf.all.disable_ipv6=1sysctl -p /etc/sysctl.conf

2017-06-15 20:39:35 830

原创 App统计指标定义

活跃用户新增用户累计用户DAU/MAU启动次数日均启动次数人均启动次数单次使用时长(min)人均使用时长(min)留存用户N日留存率(%)访问人数访问人数占比(%)访问次数访问次数占比(%)单次访问时长(min)人均访问时长(min)跳出率(%)平均安装的应用平均打开的应用关联强度

2017-06-08 23:56:31 4926

原创 Redis3未授权访问漏洞导致服务器被入侵

Redis未授权访问漏洞

2017-06-06 16:03:28 4958

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍

2019-07-07

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下

2018-04-07

正则表达式验证工具.exe

正则表达式验证工具 验证正则正确与否的利器 验证java、javascript等等,非常棒的软件,推荐下

2013-03-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除