自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 资源 (3)
  • 收藏
  • 关注

原创 小白也能明白的POS和POW

小白也能明白的POS和POW

2024-05-21 17:07:36 184

原创 spark和Hive统计结构不一样的问题解决

问题:select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;用Hive可以读取。但是用spark-sql读取没有结果。并且读取另外的分区,select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;都能读取到记录。解决思路:到hive里show create table得到结果:| 'orc.compress'='S...

2021-10-22 10:55:38 630

原创 Flink 1.10 :第一次运行报错:ClassNotFoundException: yarn.exceptions.YarnException

flink有三种启动方式。本地方式,集群方式,和flink on yarn。现在说第三种生产上最常用的flink on yarn方式。首先启动flink on yarn。出现问题:第一次运行报错:ClassNotFoundException: yarn.exceptions.YarnException这个错误,解决方法很简单。需要把把官方的flink-shaded-hadoop-2-uber-2.7.5-7.0.jar放到flink的lib目录里。由于这个包在国外服务器上,下载很慢,

2021-10-22 10:37:12 962

原创 PyFlink SQL的json解析函数

当你遇到大数据里含有json时候,离线数仓开发,hive有特别好用的get_json函数。例如下面的:SELECT get_json_object(xjson,"$.[0].age") FROM person但遇到实时处理该咋办?同学们会说,Flink SQL里不是有吗?好吧,你太想当然了。在FlinkSQL,特别是最好用的FlinkSQL里,居然没有成型的JSON解析函数。根据遇到的情形,有好几种方式。如果遇到的是json有固定结构,那在定义flinkSQL的表结构里可以。比

2021-10-22 10:36:18 959

原创 Zeppelin社区给力支持下,解决Zeppelin上的Flink生产环境运行问题

背景: Zeppelin一个强大的可视化数据分析工具。它是基于Web的笔记本,可通过SQL,Scala等实现数据驱动的交互式数据分析和协作文档。功能及其强大,可以快速接入Spark,Python,R等数据分析语言工具。数据源可以接入MySQL,Kylin,Hive等几十种数据源。 在现在实时处理神器Flink如火如荼的当下,将Zeppelin接入Flink,实现实时,批数据处理,报表生成,对数据开发分析人员,无疑是一个有力的助力。 现在Flink接入阿里开源生态后,版本迭代的非常迅速,功能也提升的比较

2020-09-30 16:53:09 1098 1

原创 由文件权限引发的flink实践坑解决经过

现在参照@Jeff Zhang 简锋的教程进行Flink on Zeppelin的实时Streaming读写数据,学习在Zeppelin中使用Flink的Streaming功能。但在练习过程中,在搭建环境和进行测试数据导入时,出现了问题。由于这个问题在特定环境下出现(CentOS),所以在@Jeff Zhang 简锋教程里也没提及,而且在kafka datagen的作者github里也没提及,下面就这个问题做的探索和解决进行了一一记录,利于同样环境下的同学参考和解决。好了,下面就一一说来问题和解...

2020-06-29 16:30:06 1004

原创 seaborn在mac中中文字体问题

seaborn在mac中无论用 anaconda,还是直接shell的 python运行,都会涉及到中文的显示。用了很多办法。1.修改matplotlib的设置,然后程序里设置2.直接指定字体文件,设置在matplotlib显示里。myfont = matplotlib.font_manager.FontProperties(fname="/Library/Fonts/Sim...

2017-02-16 14:52:14 5425 4

原创 QPS达到30万的elasticsearch架设之道

架构是数据被logstash打到kafka,然后消费端从kafka通过hangout消费。最后到es来索引。原理网上比较多,就不细说,现在主要来讲实战。一、ES集群部署优化之道部署准备:1.修改文件limit #!/bin/bash max=2500000 #check permission uid=$(id -u) if [...

2016-03-21 18:18:00 12813

原创 elasticsearch那几个坑

公司有若干的nginx日志,打算用elastic search实现对实践间隔nginx请求量的统计,实现对各种常用指标的检索。大坑1:有三台同配置的es,但总有一台异常退出。经过对该服务器的内存使用情况进行分析,发现,是有进程占用内存,导致es的内存OOM。大坑2:es需要用logstash读取nginx日志进行解析,但如何书写规则,特别是自定义的nginx日志规则。建议用如下

2015-12-28 12:00:39 4632

原创 Cloudera manager API的坑

使用python的api进行cloudera的api,调用。像这样。from cm_api.api_client import ApiResourceapi = ApiResource(CM_HOST, username=CM_USER, password=CM_PASSWD)api.get_all_clusters()结果如下: clist = api.get_al

2015-11-27 18:34:27 6168 1

原创 hadoop eyes开发进度

有了hadoop集群后,对集群的作业指标进行统计,很多时候只能凭借jobtracker的日志界面进行查看。但日志界面没有历史趋势等统计功能。给数据平台的管理计费,和作业情况,会造成很大的困扰。特别是历史作业趋势和实时作业运行情况,对于拥有大数据计算集群的公司来说,非常重要。为解决这个问题,我们结合本公司内部的数据集群使用,采用python+flume+pig+mysql+php对集群情况做

2015-09-06 18:25:46 2373

原创 分析hadoop日志之前传-采用flume进行日志收集

公司hadoop集群有几百台了,对整体集群的计算能力还需要有个总体的掌握,每天有多少job计算,占用slot,MR有多少,哪些任务比较占用时间,需要放到比较空闲的时间计算等。。任务来了,我们该怎么办呢?由于公司集群大部分运行在hadoop 1.x上,在hadoop 1.x里job都是在jobtracker里进行分配,所以,可以对jt进行日志采集,然后对日志进行分析即可得到集群的任务分配,运行情况了

2015-07-22 18:11:12 5399 1

原创 Zookeeper实践2:命令行及联想

zookeeper作用很大,我们先来实践一下。当然先不用java,不用编程,就命令行。首先用客户端工具连接zk:zookeeper-3.4.6/bin/zkCli.sh -server localhost:2181进入提示符,列目录:[zk: localhost:2181(CONNECTED) 0] ls /[zookeeper]查看当前节点数据并能看到更新次数等数据。[zk: localhost

2015-06-30 18:34:27 2496

原创 zookeeper之实践一

什么是zookeeper大数据时代,hive,pig,hbase,hadoop。。。。都很重要,但是,“一个成功的男人后面都有一个女人”,一群重磅的大数据工具平台后,有一个重要的“动物园管理员”。那就是,那就是Zookeeper。在大数据应用中,高可用性非常重要,众多的服务都是建立在稳定和高可用性上的,谁能确保呢,那也是管理员,---zookeeper。可以说,在台前精彩的表演后,有一

2015-06-24 18:40:02 2390

原创 android加ShortCut之历险记

需要在主入口外再加一个快捷方式,平常的加快捷方式代码很常见,一搜一大把,现在贡献下。让同学们少一点奔劳。代码如下: private void addShortcut() { // 安装的Intent Intent shortcut = new Intent("com.android.launcher.action.INSTALL_SHORTCUT");

2015-06-17 17:21:40 2710

原创 用R来进行股票分析

当今股市如火如荼,程序猿们除了coding,另一个致富的机会来了,就是股票。说到数据,这可是程序猿的拿手绝活,海口是夸下了,但如何来抓取数据,并且分析数据的相关指标,并且指导我们实际操作呢。接下来,我们一个个来解决。1。安装对应包首先,打开R软件,出现命令提示符,>.输入install.packages("quantmod")打回车,出现Warning in install

2015-05-29 18:39:07 13483 2

原创 近实时运算的利器---presto在公司实践

1.起因公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要借助于hive提供业务人员日常查询。总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛,让一般的业务人员也可以直接对

2015-05-21 11:45:46 31112 2

转载 Lambda表达式让Spark编程更容易

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8

2015-03-31 17:54:18 5576

转载 理解Spark的核心RDD

InfoQ - 促进软件开发领域知识与创新的传播登录En |中文 |日本 |Fr |Br482,381 二月 独立访问用户语言 & 开发Java.Net云计算移动HTML 5JavaScriptRubyDSLsPyt

2015-03-31 17:51:45 3542

转载 Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib

Apache Spark项目发布了1.3版本。主要改进是增加了DataFrames API,更成熟的Spark SQL以及一些添加到机器学习库MLlib的新方法。此外,新版本可以更好地将Spark Streaming与Apache Kafka整合。DataFrames API是新版本最主要的新增功能。采用R语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame包含一张

2015-03-31 17:49:04 2448

原创 组合pig和hive来进行数据分析

接到产品一个任务,需要对使用产品的用户操作系统来个分析。对清洗后的hive数据进行分析,发现,数据恰恰把操作系统数据进行了过滤,只有到rawlog里去进行数据分析了。但由于rawlog没有和数据库进行关联,就只有先对rawlog进行初步手工清洗,不清洗掉操作系统数据,再建hive临时表来解决了。第一步,用pig进行数据初步清洗,上代码REGISTER 'elephant-bird-

2015-03-31 17:37:54 4439

转载 HBase基本数据操作详解

之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。 本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide、 Developer API编写 。 所有代码均基于“hbase  0.96.2-hadoop2 ”版本编写,均实测通过。 概述 对于建表,和RDBMS类似,HBase也有namesp

2015-03-06 10:18:55 2752

转载 hive学习笔记

下面就是我给大家总结的hive学习笔记 大家有什么不懂得可以参考参考!1.  HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许

2015-03-06 10:17:46 3547

转载 斯坦福与谷歌:用大规模multitask神经网络发现新药

作者:墨痕从在搜索中回答与健康相关的问题,到给开发者提供健身数据平台,Google在我们的日常健康中越来越重要。但其实互联网巨头们也在努力加快研发治愈人类顽疾的关键药物。同斯坦福大学的Pande Lab合作,Google Research发表了一篇题为“针对药物研发的大规模多任务网络”的文章。该文章描述了如何用不同来源的数据,更好地确定哪种化合物将作为“治疗多种顽疾的有效药物”。

2015-03-06 10:08:59 3270

转载 Spark Streaming容错的改进和零数据丢失

作者:Tathagata Das 译者:彭根禄本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。以下为原文:实时流处理系统必须要

2015-03-06 10:07:20 4956

转载 机器学习实践中应避免的七种常见错误

在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤其是“大数据”)的模型算法。以下为正文:统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,

2015-03-06 10:06:49 2358

原创 com.android.dx.util.DexException: Multiple dex files define之谜

在维护已有的android工程时候,编译后期出现这样的提示Error:Android Dex: [kxxxxx] com.android.dx.util.DexException: Multiple dex files define Lcom/tencent/mid/a/a;怎么折腾都不行,差点把依赖库都删除更新一次。最后干脆重新删除库依赖,再重新添加,结果一切OK.

2015-02-26 10:40:39 1344

转载 Spark 1.2.1 发布,开源集群计算系统

Spark 1.2.1 发布,此版本是个维护版本,包括 69 位贡献者,修复了一些 Spark 的 bug,包括核心 API,Streaming,PySpark,SQL,GraphX 和 MLlib 方面的。更多改进内容请看发行说明,此版本现已提供 下载。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载

2015-02-25 10:38:06 828

转载 Spark SQL深度理解

作者 张包峰CatalystCatalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架。目前与Spark Core还是耦合的,对此user邮件组里有人对此提出疑问,见mail。以下是Catalyst较早时候的架构图,展示的是代码结构和处理流程。Catalyst定位其他系统如果想基于Spark做一些类sq

2015-02-25 10:33:43 924

原创 Pig优化之路之巧用Macro

问题:   去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。    在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码:curr

2015-01-09 16:14:07 1836

原创 fabric如何能绕过故障节点

在fabric中,经常会因为列表中ip故障,导致以后的ip节点任务失败。如果用try catch,比较复杂,fabric如何能绕过故障节点呢?一行搞定:env.skip_bad_hosts = True

2014-12-22 16:47:24 1471

原创 Pig年末数据失败之谜

Pig年末数据失败之谜.有个好好的作业,每月都

2014-11-04 19:19:25 791

原创 hadoop节点故障解决一例

一台服务器故障,硬盘出问题,修复后,启动datanode。出现如下错误。2014-09-24 09:45:55,730 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /data2

2014-09-24 09:57:04 1133

原创 hadoop故障一例

2014-07-21 10:12:31,098 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException: Data node node-114-

2014-07-21 10:58:31 1315 2

原创 pig Explain详解

有如下代码:b = load '/in_off/tree/20140101/*' as (date,uid);

2014-06-10 11:22:59 1742

原创 pig故障解决

INFO org.apache.pig.impl.util.Utils - Default bootup file /tmp/.pigbootup not found2014-05-06 14:52:59,644 [main] ERROR org.apache.pig.Main - ERROR 2999: Unexpected internal error. nullDetails at l

2014-05-06 16:26:32 6674

原创 pig的坑

这么执行 pig 脚本,结果坑不少。pig -f count_active2_day_total.pig  -p basedir=in_off/active2 -p total_data=* -p cur_data=2014-02-28第一个坑,参数传递格式。错误curr_data = FILTER last_data by st

2014-03-07 18:35:42 1055

原创 hadoop的datanode新建异常处理

新部署一个节点。部署完毕后,启动datanode,没起来,错误如下:STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = node-128-99/192.168.1.99STARTUP_MSG: args = []STARTUP_MSG: version = 1.1.2STARTUP_MSG: build = https:/

2013-12-06 17:26:50 1488

原创 ganglia的疑难杂症

配置ganglia系统,发现配置的2个分组里只出现一个。跟踪错误日志如下:/usr/sbin/gmetad[9290]: data_thread() got no answer from any [bf_hbase] datasource但另一个分组没问题。百思不得其解.灵光一闪,由于是多播,只要求配置端口就ok,配置文件如下:data_source "bf_names"

2013-11-28 11:23:05 2853

原创 hadoop的datanode异常结束

集群datanode节点挂掉一个。错误如下:2013-11-18 02:01:13,730 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(192.168.1.190:50010, storageID=DS-155659652-192.168.1.190-50010-138361974046

2013-11-18 15:39:42 10075

flink-shaded-hadoop-2-uber-2.7.5-7.0.jar

Flink 1.10 跑作业时候报ClassNotFoundException: yarn.exceptions.YarnException。必须把这个jar放到flink的lib目录下就搞定

2020-06-05

2009信息系统项目管理师考试试题大泄密

2009 信息系统项目 管理师考 试试题 大泄密

2009-10-28

信息系统项目整体管理知识体系要点

信息系统项目整体管理知识要点,更充分应考

2009-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除