黑肚皮的窝-CSDN博客

问题：select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;用Hive可以读取。但是用spark-sql读取没有结果。并且读取另外的分区，select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;都能读取到记录。解决思路：到hive里show create table得到结果:| 'orc.compress'='S...

2021-10-22 10:55:38 630

原创 Flink 1.10 :第一次运行报错：ClassNotFoundException: yarn.exceptions.YarnException

flink有三种启动方式。本地方式，集群方式，和flink on yarn。现在说第三种生产上最常用的flink on yarn方式。首先启动flink on yarn。出现问题:第一次运行报错：ClassNotFoundException: yarn.exceptions.YarnException这个错误，解决方法很简单。需要把把官方的flink-shaded-hadoop-2-uber-2.7.5-7.0.jar放到flink的lib目录里。由于这个包在国外服务器上，下载很慢，

2021-10-22 10:37:12 962

原创 PyFlink SQL的json解析函数

当你遇到大数据里含有json时候，离线数仓开发，hive有特别好用的get_json函数。例如下面的：SELECT get_json_object(xjson,"$.[0].age") FROM person但遇到实时处理该咋办？同学们会说，Flink SQL里不是有吗？好吧，你太想当然了。在FlinkSQL，特别是最好用的FlinkSQL里，居然没有成型的JSON解析函数。根据遇到的情形，有好几种方式。如果遇到的是json有固定结构，那在定义flinkSQL的表结构里可以。比

2021-10-22 10:36:18 959

原创 Zeppelin社区给力支持下，解决Zeppelin上的Flink生产环境运行问题

背景： Zeppelin一个强大的可视化数据分析工具。它是基于Web的笔记本，可通过SQL，Scala等实现数据驱动的交互式数据分析和协作文档。功能及其强大，可以快速接入Spark,Python,R等数据分析语言工具。数据源可以接入MySQL,Kylin,Hive等几十种数据源。在现在实时处理神器Flink如火如荼的当下，将Zeppelin接入Flink，实现实时，批数据处理，报表生成，对数据开发分析人员，无疑是一个有力的助力。现在Flink接入阿里开源生态后，版本迭代的非常迅速，功能也提升的比较

2020-09-30 16:53:09 1098 1

原创由文件权限引发的flink实践坑解决经过

现在参照@Jeff Zhang 简锋的教程进行Flink on Zeppelin的实时Streaming读写数据，学习在Zeppelin中使用Flink的Streaming功能。但在练习过程中，在搭建环境和进行测试数据导入时，出现了问题。由于这个问题在特定环境下出现（CentOS),所以在@Jeff Zhang 简锋教程里也没提及，而且在kafka datagen的作者github里也没提及，下面就这个问题做的探索和解决进行了一一记录，利于同样环境下的同学参考和解决。好了，下面就一一说来问题和解...

2020-06-29 16:30:06 1004

原创 seaborn在mac中中文字体问题

seaborn在mac中无论用 anaconda，还是直接shell的 python运行，都会涉及到中文的显示。用了很多办法。1.修改matplotlib的设置，然后程序里设置2.直接指定字体文件，设置在matplotlib显示里。myfont = matplotlib.font_manager.FontProperties(fname="/Library/Fonts/Sim...

2017-02-16 14:52:14 5425 4

原创 QPS达到30万的elasticsearch架设之道

架构是数据被logstash打到kafka,然后消费端从kafka通过hangout消费。最后到es来索引。原理网上比较多，就不细说，现在主要来讲实战。一、ES集群部署优化之道部署准备:1.修改文件limit #!/bin/bash max=2500000 #check permission uid=$(id -u) if [...

2016-03-21 18:18:00 12813

原创 elasticsearch那几个坑

公司有若干的nginx日志，打算用elastic search实现对实践间隔nginx请求量的统计，实现对各种常用指标的检索。大坑1:有三台同配置的es,但总有一台异常退出。经过对该服务器的内存使用情况进行分析，发现，是有进程占用内存，导致es的内存OOM。大坑2:es需要用logstash读取nginx日志进行解析，但如何书写规则，特别是自定义的nginx日志规则。建议用如下

2015-12-28 12:00:39 4632

原创 Cloudera manager API的坑

使用python的api进行cloudera的api，调用。像这样。from cm_api.api_client import ApiResourceapi = ApiResource(CM_HOST, username=CM_USER, password=CM_PASSWD)api.get_all_clusters()结果如下： clist = api.get_al

2015-11-27 18:34:27 6168 1

原创 hadoop eyes开发进度

有了hadoop集群后，对集群的作业指标进行统计，很多时候只能凭借jobtracker的日志界面进行查看。但日志界面没有历史趋势等统计功能。给数据平台的管理计费，和作业情况，会造成很大的困扰。特别是历史作业趋势和实时作业运行情况，对于拥有大数据计算集群的公司来说，非常重要。为解决这个问题，我们结合本公司内部的数据集群使用，采用python+flume+pig+mysql+php对集群情况做

2015-09-06 18:25:46 2373

原创分析hadoop日志之前传-采用flume进行日志收集

公司hadoop集群有几百台了，对整体集群的计算能力还需要有个总体的掌握，每天有多少job计算，占用slot，MR有多少，哪些任务比较占用时间，需要放到比较空闲的时间计算等。。任务来了，我们该怎么办呢？由于公司集群大部分运行在hadoop 1.x上，在hadoop 1.x里job都是在jobtracker里进行分配，所以，可以对jt进行日志采集，然后对日志进行分析即可得到集群的任务分配，运行情况了

2015-07-22 18:11:12 5399 1

原创 Zookeeper实践2:命令行及联想

zookeeper作用很大，我们先来实践一下。当然先不用java，不用编程，就命令行。首先用客户端工具连接zk:zookeeper-3.4.6/bin/zkCli.sh -server localhost:2181进入提示符,列目录：[zk: localhost:2181(CONNECTED) 0] ls /[zookeeper]查看当前节点数据并能看到更新次数等数据。[zk: localhost

2015-06-30 18:34:27 2496

原创 zookeeper之实践一

什么是zookeeper大数据时代，hive,pig,hbase,hadoop。。。。都很重要，但是，“一个成功的男人后面都有一个女人”，一群重磅的大数据工具平台后，有一个重要的“动物园管理员”。那就是，那就是Zookeeper。在大数据应用中，高可用性非常重要，众多的服务都是建立在稳定和高可用性上的，谁能确保呢，那也是管理员，---zookeeper。可以说，在台前精彩的表演后，有一

2015-06-24 18:40:02 2390

原创 android加ShortCut之历险记

需要在主入口外再加一个快捷方式，平常的加快捷方式代码很常见，一搜一大把，现在贡献下。让同学们少一点奔劳。代码如下: private void addShortcut() { // 安装的Intent Intent shortcut = new Intent("com.android.launcher.action.INSTALL_SHORTCUT");

2015-06-17 17:21:40 2710

原创用R来进行股票分析

当今股市如火如荼，程序猿们除了coding，另一个致富的机会来了，就是股票。说到数据，这可是程序猿的拿手绝活，海口是夸下了，但如何来抓取数据，并且分析数据的相关指标，并且指导我们实际操作呢。接下来，我们一个个来解决。1。安装对应包首先，打开R软件，出现命令提示符，>.输入install.packages("quantmod")打回车，出现Warning in install

2015-05-29 18:39:07 13483 2

原创近实时运算的利器---presto在公司实践

1.起因公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨，平日工作时间负载不是很高。但在工作时间内，公司业务人员有实时查询需求，现在主要借助于hive提供业务人员日常查询。总所周知，hive是一个基于MR的类SQL查询工具，它会把输入的查询SQL解释为MapReduce，能极大的降低使用大数据查询的门槛，让一般的业务人员也可以直接对

2015-05-21 11:45:46 31112 2

转载 Lambda表达式让Spark编程更容易

近日，Databricks官方网站发表了一篇博文，用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出，Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁，但由于缺少函数表达式，Java API有些冗长。因此，随着Java 8增加了lambda表达式，他们更新了Spark的API。Spark 1.0将提供Java 8

2015-03-31 17:54:18 5576

转载理解Spark的核心RDD

InfoQ - 促进软件开发领域知识与创新的传播登录En |中文 |日本 |Fr |Br482,381 二月独立访问用户语言 & 开发Java.Net云计算移动HTML 5JavaScriptRubyDSLsPyt

2015-03-31 17:51:45 3542

转载 Apache Spark发布1.3版本，引入Data Frames、改进Spark SQL和MLlib

Apache Spark项目发布了1.3版本。主要改进是增加了DataFrames API，更成熟的Spark SQL以及一些添加到机器学习库MLlib的新方法。此外，新版本可以更好地将Spark Streaming与Apache Kafka整合。DataFrames API是新版本最主要的新增功能。采用R语言中的同名数据结构建模，目的是为列表数据提供更好的支持。DataFrame包含一张

2015-03-31 17:49:04 2448

原创组合pig和hive来进行数据分析

接到产品一个任务，需要对使用产品的用户操作系统来个分析。对清洗后的hive数据进行分析，发现，数据恰恰把操作系统数据进行了过滤，只有到rawlog里去进行数据分析了。但由于rawlog没有和数据库进行关联，就只有先对rawlog进行初步手工清洗，不清洗掉操作系统数据，再建hive临时表来解决了。第一步，用pig进行数据初步清洗，上代码REGISTER 'elephant-bird-

2015-03-31 17:37:54 4439

转载 HBase基本数据操作详解

之前详细写了一篇HBase过滤器的文章，今天把基础的表和数据相关操作补上。本文档参考最新（截止2014年7月16日）的官方 Ref Guide、 Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2 ”版本编写，均实测通过。概述对于建表，和RDBMS类似，HBase也有namesp

2015-03-06 10:18:55 2752

转载 hive学习笔记

下面就是我给大家总结的hive学习笔记大家有什么不懂得可以参考参考！1. HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许

2015-03-06 10:17:46 3547

转载斯坦福与谷歌：用大规模multitask神经网络发现新药

作者：墨痕从在搜索中回答与健康相关的问题，到给开发者提供健身数据平台，Google在我们的日常健康中越来越重要。但其实互联网巨头们也在努力加快研发治愈人类顽疾的关键药物。同斯坦福大学的Pande Lab合作，Google Research发表了一篇题为“针对药物研发的大规模多任务网络”的文章。该文章描述了如何用不同来源的数据，更好地确定哪种化合物将作为“治疗多种顽疾的有效药物”。

2015-03-06 10:08:59 3270

转载 Spark Streaming容错的改进和零数据丢失

作者：Tathagata Das 译者：彭根禄本文来自Spark Streaming项目带头人 Tathagata Das的博客文章，他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。以下为原文：实时流处理系统必须要

2015-03-06 10:07:20 4956

转载机器学习实践中应避免的七种常见错误

在机器学习领域，每个给定的建模问题都存在几十种解法，每个模型又有难以简单判定是否合理的不同假设。在这种情况下，大多数从业人员倾向于挑选他们熟悉的建模算法，本文作者则认为，模型算法的假设并不一定适用于手头的数据；在追求模型最佳性能时，重要的是选择适合数据集（尤其是“大数据”）的模型算法。以下为正文：统计建模和工程开发很相似。在工程开发中，人们有多种方法搭建一套键-值存储系统，

2015-03-06 10:06:49 2358

原创 com.android.dx.util.DexException: Multiple dex files define之谜

在维护已有的android工程时候，编译后期出现这样的提示Error:Android Dex: [kxxxxx] com.android.dx.util.DexException: Multiple dex files define Lcom/tencent/mid/a/a;怎么折腾都不行，差点把依赖库都删除更新一次。最后干脆重新删除库依赖，再重新添加，结果一切OK.

2015-02-26 10:40:39 1344

转载 Spark 1.2.1 发布，开源集群计算系统

Spark 1.2.1 发布，此版本是个维护版本，包括 69 位贡献者，修复了一些 Spark 的 bug，包括核心 API，Streaming，PySpark，SQL，GraphX 和 MLlib 方面的。更多改进内容请看发行说明，此版本现已提供下载。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载

2015-02-25 10:38:06 828

转载 Spark SQL深度理解

作者张包峰CatalystCatalyst是与Spark解耦的一个独立库，是一个impl-free的执行计划的生成和优化框架。目前与Spark Core还是耦合的，对此user邮件组里有人对此提出疑问，见mail。以下是Catalyst较早时候的架构图，展示的是代码结构和处理流程。Catalyst定位其他系统如果想基于Spark做一些类sq

2015-02-25 10:33:43 924

原创 Pig优化之路之巧用Macro

问题：去年用Pig进行了一系列报表和ETL的开发，感觉Pig很不错，没有Hive的娇贵，又比粗糙的MapReduce来的精巧，很称手。新年正好涉及以前的程序调整，借此之机，对Pig写的脚本进行了优化。毕竟，越用越熟，越能发现Pig的魅力。在整理以前的Pig程序里，发现了一个问题，就是pig没有提取数据集大小的功能，所以每次要取数据集条数的工作，总会遗留下如下代码：curr

2015-01-09 16:14:07 1836

原创 fabric如何能绕过故障节点

在fabric中，经常会因为列表中ip故障，导致以后的ip节点任务失败。如果用try catch,比较复杂，fabric如何能绕过故障节点呢？一行搞定：env.skip_bad_hosts = True

2014-12-22 16:47:24 1471

原创 Pig年末数据失败之谜

Pig年末数据失败之谜.有个好好的作业，每月都

2014-11-04 19:19:25 791

原创 hadoop节点故障解决一例

一台服务器故障，硬盘出问题，修复后，启动datanode。出现如下错误。2014-09-24 09:45:55,730 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /data2

2014-09-24 09:57:04 1133

原创 hadoop故障一例

2014-07-21 10:12:31,098 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException: Data node node-114-

2014-07-21 10:58:31 1315 2

原创 pig Explain详解

有如下代码:b = load '/in_off/tree/20140101/*' as (date,uid);

2014-06-10 11:22:59 1742

原创 pig故障解决

INFO org.apache.pig.impl.util.Utils - Default bootup file /tmp/.pigbootup not found2014-05-06 14:52:59,644 [main] ERROR org.apache.pig.Main - ERROR 2999: Unexpected internal error. nullDetails at l

2014-05-06 16:26:32 6674

原创 pig的坑

这么执行 pig 脚本，结果坑不少。pig -f count_active2_day_total.pig -p basedir=in_off/active2 -p total_data=* -p cur_data=2014-02-28第一个坑，参数传递格式。错误curr_data = FILTER last_data by st

2014-03-07 18:35:42 1055

原创 hadoop的datanode新建异常处理

新部署一个节点。部署完毕后，启动datanode,没起来,错误如下：STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = node-128-99/192.168.1.99STARTUP_MSG: args = []STARTUP_MSG: version = 1.1.2STARTUP_MSG: build = https:/

2013-12-06 17:26:50 1488

原创 ganglia的疑难杂症

配置ganglia系统，发现配置的2个分组里只出现一个。跟踪错误日志如下:/usr/sbin/gmetad[9290]: data_thread() got no answer from any [bf_hbase] datasource但另一个分组没问题。百思不得其解.灵光一闪，由于是多播，只要求配置端口就ok，配置文件如下:data_source "bf_names"

2013-11-28 11:23:05 2853

原创 hadoop的datanode异常结束

集群datanode节点挂掉一个。错误如下:2013-11-18 02:01:13,730 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(192.168.1.190:50010, storageID=DS-155659652-192.168.1.190-50010-138361974046

2013-11-18 15:39:42 10075

flink-shaded-hadoop-2-uber-2.7.5-7.0.jar

2009信息系统项目管理师考试试题大泄密

信息系统项目整体管理知识体系要点

空空如也