自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

转载 CDH集群中maptask的日志文件的位置整理

笨小葱这周写了一个读取hbase中的数据到map中的很简单的mr。然后放到cdh集群中跑了一下,结果出现了一系列问题。其中最重要的一个问题竟然是,笨小葱想去找我在mr程序中打的日志,竟然苦苦找不到。所以这里记录下笨小葱从头到尾的一个过程。1.打包运行mr这里笨小葱执行 hadoop jar xxx.jar时,报了一个错误:[java] view plai

2017-09-28 14:04:29 1837 1

转载 Handling database fetch size in Sqoop

SQOOPHandling database fetch size in SqoopDECEMBER 1, 2015 VENKAT S LEAVE A COMMENTWhen importing data from various RDBMSs you might not have found any issue in the process. This

2017-09-26 15:11:49 800

转载 MySQL JDBC FetchSize解析

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://boylook.blog.51cto.com/7934327/1308511根据http://boylook.blog.51cto.com/7934327/1298634提到MySQL JDBC的fetchsize问题. 在MySQl官方文档里只提到了streami

2017-09-26 15:00:03 4308

转载 正确使用MySQL JDBC setFetchSize()方法解决JDBC处理大结果集 java.lang.OutOfMemoryEr

MYSQL JDBC快速查询响应的方法,快速返回机制的实现一直很纠结,Oracle的快速返回机制,虽然结果集很多,可是它能很快的显示第一个结果,虽然通过MYSQl的客户端可以做到,但是通过JDBC却不行。今天用了1个多小时,终于搞定此问题,希望对广大Java朋友在处理数据库时有个参考。来由:    通过命令行客户端加上-q参数,可以极快的响应一个查询

2017-09-26 14:31:42 2199

转载 机器学习实战-数据探索(异常值处理)

《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》机器学习实战-数据探索(缺失值处理)上面两篇文章介绍了数据探索的前四步,机器学习更多内容可以关注github项目:machine learning通常,我们倾向于在构建模型时忽略异常值,这不是一个明智的做法, 异常值使数据偏移并降低准确性,在此让我们进一步了解异常处理。什么样的值是异常值?异常

2017-09-25 20:05:22 3309

转载 【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程,实现NameNode HA、ResourceManager HA高可靠性

收藏雪饼 发表于 3个月前 阅读 3214 收藏 426 点赞 5 评论 20最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode、ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作。详细的搭建过程如下:1、安装docker,创

2017-09-14 20:52:34 489

转载 CM5(5.11.0)和CDH5(5.11.0)离线安装

CM5(5.11.0)和CDH5(5.11.0)离线安装概述文件下载系统环境搭建日志查看Q&A参考概述CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera M

2017-09-13 13:23:51 751

转载 CDH5.7.2离线部署笔记

[日期:2016-08-04]来源:Linux社区  作者:dolittle[字体:大 中 小]1、部署基本信息说明:1.1、主机信息操作系统:选择CentOS6.7 x86-64版本MEM:64GB,CPU: E5-2630 v3 @ 2.40GHz, DISK:2TB*4(数据节点存储,操作系统除外)主机信息:主机名

2017-09-13 11:45:41 461

转载 分布式机器学习平台大比拼:Spark、PMLS、TensorFlow、MXNet

本论文从分布式系统的角度开展针对当前一些机器学习平台的研究,综述了这些平台所使用的架构设计,对这些平台在通信和控制上的瓶颈、容错性和开发难度进行分析和对比,并对分布式机器学习平台的未来研究工作提出了一些建议。文中的工作由 Murat Demirbas 教授与他的研究生 Kuo Zhang 和 Salem Alqahtani 共同完成。   机器学习,特别是深度学习,已在语音识别、图像识别和

2017-09-12 20:43:35 4527 1

原创 TIP: when you get a message in job log user [Dr. Who] is not authorized to view the log

问题: 生产环境出现该错误。而测试环境正常原因:启用 yarn.acl.enable  并且 yarn.admin.acl 值为root,admin 而测试集群为* 解决方法:1。yarn.acl.enable 设置false                     2. yarn.admin.acl 设置为 *                     3. yar

2017-09-12 14:17:06 1127

转载 这次不忽悠:3个成功案例告诉你,开一家AI公司其实不难

这次不忽悠:3个成功案例告诉你,开一家AI公司其实不难人工智能 google 图像识别摘要: CNET科技行者 9月6日 北京消息:之前拆解了《忽悠VC指南,假装成一名人工智能专家的正确姿势》。这次,我们不忽悠 ,玩真的,带来升级版的“AI公司”速成攻略,并附上3个成功案例,揭露企业开创人工智能领域业务的三大方式。CNET科技行者 9月6日 北京消息:之前拆解了《忽悠V

2017-09-11 19:58:12 1198

转载 破解大数据应用难题 人工智能如何落地银行业

基于大数据构建金融知识图谱、基于社交网络与银行业核心数据识别并深度了解客户。这些都是如今银行业最需要实现落地的课题。 在科技金融借助“互联网+”迅速覆盖各行各业的当下,我国银行业金融科技化转型成效惊人。相关统计数据显示,目前国内大型商业银行的电子渠道交易占比已超过80%。大数据应用代替传统人工为银行业带来成本骤降的同时,大量沉淀数据也成为了各家银行的宝贵

2017-09-11 19:55:32 1671

转载 机器学习实战-数据探索(缺失值处理)

2017.09.10 09:06* 字数 1753 阅读 315评论 1喜欢 4接着上一篇:《机器学习实战-数据探索》介绍,机器学习更多内容可以关注github项目:machine learning《机器学习实战-数据探索》介绍了1、变量识别;2、单变量分析;3、双变量分析,现在接着介绍缺失值处理。为什么需要处理缺失值呢?训练数据集中缺少的数据可以减少模型的

2017-09-11 19:53:35 4223

转载 YARN ResourceManager调度器的分析

问题导读1.ResourceManager的作用是什么?2.NodeManager与container是什么关系?3.三种调度器各有什么特点?4.容量调度器的参数计算关系是什么?YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析

2017-09-11 13:53:29 783

转载 毕业年薪30万,你准备好读人工智能专业了吗

chenjj 2017-08-31 人工智能, 大数据, 热门新闻 731 views 3这是一个属于人工智能的时代。当前,人工智能是一颗闪耀的“明星”,已经成为国际竞争的新焦点,世界多国都在加紧人工智能发展布局,以至于提到了战略高度的地位。日前,国务院发布了《新一代人工智能发展规划》,对完善人工智能领域学科布局,设立人工智能专业,推动人工智能领域一级学科建设提出了

2017-09-05 20:15:15 5724 5

转载 分析Hive表和分区的统计信息(Statistics)

关键字:Hive统计信息、分析Hive表、Hive Statistics类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;14.1 新表的统计信息对于一个新创建的表,默认情况下,如果通过INSERT O

2017-09-01 16:02:04 18002

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除