云计算/大数据
strideahead

spark学习初识

1
Anbang713

Spark项目实战-实际项目中常见的优化点-降低cache操作内存占比

一、原理 在JVM中,有一块内存我们称之为堆内存,其作用是用来存放程序中的对象。堆内存中又分为年轻代和老年代,年轻代中又分为三块,分别是Eden区域和两个survivor区域。 每一次放对象的...
1
Anbang713

Spark项目实战-实际项目中常见的优化点-设置本地化等待时间

一、什么是数据本地化 Spark在Driver上,对Application的每一个stage的task进行分配之前,都会计算出每个task要计算的是哪个分片数据。Spark的task分配算法优先会希...
1
kepengs

git和github简述

Git的中起源和主人的介绍以及建立Github的仓库链接简单介绍 首先要明确一点,对GIT中的操作是围绕3个大的步骤来展开的(其实几乎所有的SCM都是这样) 1.从git取数据(git clone...
0
codemaster_2071

kubeadm安装kubernetes 多master高可用

目录   版本信息 节点信息 安装前准备 1. 配置hosts解析 2. 安装docker 3. 安装 kubeadm, kubelet 和 kubectl 4. 配置系统相关参数 ...
29
weixin_38750084

flume实现几十条业务线日志系统如何收集处理

在互联网迅猛发展的今天 各大厂发挥十八般武艺的收集用户的各种信息,甚至包括点击的位置,我们也经常发现自己刚搜完一个东西,再打开网页时每个小广告都会出现与之相关联的商品或信息,在感叹智能的同时不惊想 什...
2
weixin_38750084

Spark任务的执行流程

2
weixin_38750084

spark剖析原理图

1.spark内核架构深度剖析: 2.宽依赖窄依赖深度剖析: 3.基于yarn两种提交模式深度剖析: 4.SparkContext 原理剖析: 5.Master 主备切换的原理...
13
sinat_26745777

代码写的好不如图画的好(下)

一、绘制散点图 假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律? a=[11,17,16,11,12,11...
0
qq_21383435

mac下编译hadoop-3.0.3

1.编译前准备 mac下编译hadoop-2.7.4 https://blog.csdn.net/qq_21383435/article/details/81044847 2. 源码目录下执行 m...
1
sinat_26745777

代码写好不如图画的好(上)

一、matplotlib的基本绘图 # encodeing=utf-8 ''' # Created on 2018年9月17日 @author: TuringEmmy ''' from matplo...
0
huxiaotong_exp

机器学习 第一章 Python复习(8)元组+案例用BeautifulSoup抓取基金网站

元组Tuple 参考文档 1.元组是不可变的 2.创建元组的四种方式 t = () t = 1, # or t = (1,) t = (1,2,3) # or 1,2,3, t = tuple([1...
0
starkpan

Mac virtualbox centos7 安装flume

1、安装flume之前,要先安装jdk1.8 https://blog.csdn.net/starkpan/article/details/81293620 2、进入linux下载flume,这里...
1
a1135497143

Hive入门详解(三)

个人博客原文链接 内置函数UDF和内置运算符 取随机数rand() select rand() from t_product; 求a的阶乘 factorial(INT a) select fa...
1
a1135497143

Hive入门详解(二)

个人博客原文链接 Hive的DDL操作 创建表(四种表) 内部表 创建产品表 create table t_product(id int,name string,price double,cate...
0
tianyeshiye

【Big Data 每日一题】Spark开发性能调优总结

1. 分配资源调优 Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到...
0
weixin_38750084

spark-project项目的Spark安装配置

安装spark客户端 1、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。 2、解压缩spark包:tar -zxvf spark-1...
1
qq_38872310

Hadoop学习笔记(1)——单机版搭建

Hadoop是一个分布式计算框架,适用于离线的海量信息批处理,大文件日志分析等,可以在大量廉价硬件设备组成的集群上运行应用程序,并未应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性...
0
tianyeshiye

【Big Data 每日一题20180918】 Hive  filter pushdown ? (英)

转至元数据结尾 由 Confluence Administrator创建, 最终由 Lefty Leverenz修改于 八月 02, 2014 转至元数据起始 Filter Pushdown  ...
0
weixin_38750084

实时数据采集流程

1
weixin_38750084

离线日志采集流程

1
cry970795248

第十六天 - Sqoop工具使用 - Hadoop、Hive、Sqoop常见问题 - 数据可视化工具ECharts.md

#第十六天 - Sqoop工具使用 - Hadoop、Hive、Sqoop常见问题 - 数据可视化工具ECharts 文章目录一、Sqoop从MySql导数据到Hive过程执行Sqoop命令Sqoop...
44
Yu1543376365

Linux的Shell脚本——day6——awk文本检索

自动对齐   column -t 文本   echo '内容' | column -t [Lyu@root ~]#awk -F: 'BEGIN{print "用户名",&quo...
6
cry970795248

第十五天 - Hive自定义函数扩展 - Sqoop安装配置、基本操作 - Sqoop结合Web.md

第十五天 - Hive自定义函数扩展 - Sqoop安装配置、基本操作 - Sqoop结合Web 文章目录第十五天 - Hive自定义函数扩展 - Sqoop安装配置、基本操作 - Sqoop结合We...
30
bigtree_3721

IDEA Lombok 使用

Lombok使用 介绍 在项目中使用Lombok可以减少很多重复代码的书写。比如说getter/setter/toString等方法的编写。 IDEA中的安装 打开IDEA的Setting –...
3
zjcjava

hadoop第二篇:使用Maven开发Hadoop编程进阶

Hadoop第二篇:使用Maven开发Hadoop编程进阶 如何进行java代码开发进行符合自己需求的实践,先从Wordcount看看它是如何做的,这里从使用java接口看看一些基本的操作开始。 基础...
4
weixin_43234781

生技生信双修

生技双修生信记录贴 day1
10
a937219462

大数据四个一定要掌握的知识点

大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业。大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能。学习大数据需要掌握哪些知识? 1、学习大数据...
4
zjcjava

Hadoop第一篇:hadoop2.7.5单机版安装

hadoop2.7.5单机版安装 简介 Hadoop主要完成两件事,分布式存储和分布式计算。 Hadoop主要由两个核心部分组成: 1.HDFS:分布式文件系统,用来存储海量数据。 2.MapRedu...
6
weixin_40050195

利用MaxCompute部署股票交易策略

阿里云大学课程:利用MaxCompute部署股票交易策略 课程介绍: 技术已经成为金融业的资产并在交易中体现了主导能力。本课程介绍了如何在金融场景下运用阿里云Maxcompute搭建股票的交易策略...
3

预告
img 进军Web前端工程师
讲师:曾亮老师

专家申请

img
刘博文

常年大数据工作,原项目是负责中国邮政储蓄银行所有非结构化数据存储。hadoop集群规模超千...

img
王栋

14年开始做技术,16年创业至今。在技术这条路上摸爬滚打这几年,对Java生态有了清楚的认...

img
测试账号测试2

这是一个测试2

更多

日榜

官方博客

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部