立喆
码龄14年
求更新 关注
提问 私信
  • 博客:122,459
    122,459
    总访问量
  • 15
    原创
  • 70
    粉丝
  • 31
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2011-05-04

个人简介:非典型IT男

博客简介:

leone911的博客

查看详细资料
个人成就
  • 获得43次点赞
  • 内容获得7次评论
  • 获得131次收藏
  • 博客总排名1,594,813名
创作历程
  • 11篇
    2018年
  • 33篇
    2017年
  • 13篇
    2016年
  • 2篇
    2015年
TA的专栏
  • MARKDOWN语法
  • maven操作
    2篇
  • hadoop-HA
    2篇
  • yarn
    4篇
  • hadoop
    9篇
  • Lambda
    2篇
  • 分布式
    4篇
  • kafka
    3篇
  • HDFS
    5篇
  • spark
    8篇
  • Linux
    2篇
  • 前端开发
  • docker
    1篇
  • 人工智能
    2篇
  • 机器学习
    1篇
  • presto
    3篇
  • springboot
    1篇
  • Keycloak

TA关注的专栏 2

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    机器学习神经网络nlp数据分析
创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

66人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

Failed to connect to Sentry service Config key

INFO : Concurrency mode is disabled, not creating a lock managerINFO : Executing command(queryId=hadoop_20180713115353_a988c429-17a0-4b95-abce-458a9ffcc004): drop table if exists tmp.fbi_loan_deta...
原创
发布博客 2018.07.17 ·
1075 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sentry Beeline

环境Ubuntu STL 16.0.4Hadoop 2.7.4Hive 2.1.1sentry 1.7.0maven 3.5.0//注:伪分布式环境1234567安装maven1.apache maven官网下载maven,用于编译sentry源码。 2.修改~/.bashrc文件,添加maven路径。export MAVEN_HOME=/etc/usr/local/maven...
转载
发布博客 2018.07.13 ·
806 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分布式一致性算法Paxos介绍

IntroductionGoogle Chubby的作者Mike Burrows说过这个世界上只有一种一致性算法,那就是Paxos,其它的算法都是残次品。PAXOS可以用来解决分布式环境下,选举(或设置)某一个值的问题(比如更新数据库中某个user的age是多少)。分布式系统中有多个节点就会存在节点间通信的问题,存在着两种节点通讯模型:共享内存(Shared memory)、消息传递(Messag...
转载
发布博客 2018.05.07 ·
2153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Presto 原理

Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生成执行计划,分发执行任务给Worker节点执行。Worker节点负责实际执行查询任务。Worker节点启动后向Discove...
转载
发布博客 2018.05.02 ·
1466 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

不错的linux下通用的java程序启动脚本(转载)

不错的linux下通用的java程序启动脚本(转载)虽然写起动shell的频率非常不高。。。但是每次要写都要对付一大堆的jar文件路径,新加jar包也必须要修改起动shell。在网上找到一个挺好的通用shell脚本。只需要修改一些配置变量,就可以用来做起动脚本了。并且除了能起动、还支持关闭、重启、查看是否正在运行的功能。原文地址:http://www.tudaxia.com/archives/10...
转载
发布博客 2018.03.23 ·
272 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

presto 的web ui

1、AirPal(推荐)AirPal是AirBnb开源的查询Presto的WebUI。 项目特性:可选的用户访问控制SQL语法高亮查询结果导出到CSV文件,或者存到Hive表中可查看SQL查询的历史记录可保存查询根据表名搜索对应的表可查看表结构,并预览前1000行数据项目地址 https://github.com/airbnb/airpal2、ShibShib是Treasure Data员工TAG...
原创
发布博客 2018.03.14 ·
5034 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Presto查询优化

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创...
转载
发布博客 2018.03.14 ·
1107 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

特征工程

应用机器学习像是把你当一个伟大的工程师,而非伟大的机器学习专家。 ---google    当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。一、什么是特征工程    简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业...
转载
发布博客 2018.03.12 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

人工智能学习该读哪些书

人工智能相关岗位中,涉及到的内容包含:算法、深度学习、机器学习、自然语言处理、数据结构、Tensorflow、Python 、数据挖掘、搜索开发、神经网络、视觉度量、图像识别、语音识别、推荐系统、系统算法、图像算法、数据分析、概率编程、计算机数学、数据仓库、建模等关键词,基本涵盖了现阶段人工智能细分领域的人才结构。将上面的岗位涉及到的知识和技术划类,就形成了今天的五份书单:1人工智能科普类:人工智...
转载
发布博客 2018.03.12 ·
1629 阅读 ·
2 点赞 ·
0 评论 ·
15 收藏

爬虫架构

前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(
转载
发布博客 2018.01.15 ·
1414 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

HDFS NameNode内存预估

前言《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几
转载
发布博客 2018.01.09 ·
688 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

彻底删除Kafka中的topic

1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录2、Kafka 删除topic的命令是:     ./bin/kafka-topics  --delete --zookeeper 【zookeeper server】  --topic 【topic name】     如
原创
发布博客 2017.12.25 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka broker 配置说明

The essential configurations are the following:基本配置如下:broker.idlog.dirszookeeper.connectTopic-level configurations and defaults are discussed in more detail below.下文将详细论述了主题级别配置和默认值。
转载
发布博客 2017.12.25 ·
909 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark SQL 之 Join 实现

Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用Spar
转载
发布博客 2017.12.08 ·
443 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark Streaming 流计算优化记录(6)-GC优化与shuffle service

11.Spark应用的GC调优说到GC, 可能很多人都倾向于使用新潮的G1垃圾收集器, 特别是intel的那几个兄弟在databrick发表了篇用G1调优Spark应用的博文后, 就更多人热衷于尝试G1了.但其实我们再去年就对G1和老牌的CMS+NewPar进行过对比测试, 发现G1根本没有比CMS好, 有时候还会导致更多的FullGC, 而实际上连Oracle官方都觉得G1还没有pr
转载
发布博客 2017.12.01 ·
572 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Spark Streaming 流计算优化记录(5)-分区与内存的优化

8.不一定非得每秒处理一次由于Spark Streaming的原理是micro batch, 因此当batch积累到一定数量时再发放到集群中计算, 这样的数据吞吐量会更大些. 这需要在StreamingContext中设置Duration参数. 我们试着把Duration调成两秒, 这样Spark就会在接收Kafka的模块中积累了2秒的数据后, 在调度作业到集群中计算.结合上述做过的优
转载
发布博客 2017.12.01 ·
1511 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转

6.时间都去where了,青春不能等,调度也是除了上述优化, 我们还注意到一个奇怪的现象: 怎么回事, 即使接收不到消息都要花掉5秒?!! 虽然Spark Streaming空转依然会产生空task, 这些空task依然会消耗序列化, 压缩, 调度等时间, 但也不至于那么多吧!!!我们拿一个Stage看看, 就拿处理Kafka消息的那个Stage作例子吧: Kafka没
转载
发布博客 2017.12.01 ·
486 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spark Streaming 流计算优化记录(3)-控制流量与join的地点

4.流量控制好像之前说过”一下子从Kafka拉取几十万条消息进行处理”的事情, 其实酱紫是不对滴, 饭要一口一口吃, 一下子吃太多, 会导致还没吃成胖子就已经被撑死的. 所以我们要对为了做压力测试而早已在Kafka中囤积多时的几十万条消息分批次进行处理, 毕竟实际跑起的时候每秒拥入我们知道, Spark Streaming进行流处理的原理是micro batch, 即把每秒或每几秒
转载
发布博客 2017.12.01 ·
1333 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Spark Streaming 流计算优化记录(2)-不同时间片数据流的Join

1. 不同时间片数据流的Join         初体验之后, 看了一下Spark WebUi 的日志, 发现由于Spark Streaming需要每秒跑一次, 以实时计算数据, 所以程序不得不每秒都读一次HDFS去获取数据进行inner join.         本来SparkStreaming会对其进行处理的数据进行缓存, 以减少IO和提高计算速度的, 但由于现在我们的场景是
转载
发布博客 2017.12.01 ·
596 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming 流计算优化记录(1)-背景介绍

1.背景概述业务上有一定的需求, 希望能实时地对从中间件进来的数据已经已有的维度表进行inner join, 以便后续的统计. 维表十分巨大, 有近3千万记录,约3G数据, 而集群的资源也较紧张, 因此希望尽可能压榨Spark Streaming的性能和吞吐量.技术架构大致上如下述: 数据从Kafka流入, SparkStreaming 会从HDFS中拿到维度表的数据, 与流入的消
转载
发布博客 2017.12.01 ·
421 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多