自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 cdh6安装

打通SSH,设置ssh无密码登陆(所有节点) 1、在每台服务器上都执行ssh-keygen -t rsa生成密钥对: ssh-keygen -t rsa,一路回车,生成无密码的密钥对 //将公钥添加到认证文件中:cat ~/.ssh/id_rsa.pub >> ~/.ssh...

2019-01-10 17:10:00 1626

转载 kafka 性能调优

# 每个topic默认partition数量,根据消费者实际情况配置,配置过小会影响消费性能 num.partitions=50 #日志传输时候的压缩格式,可选择lz4,snappy,gzip,不压缩。建议打开压缩,可以提高传输性能,压缩格式的选择可以参考文章结尾的参考资料。 com...

2017-06-02 15:59:00 513

转载 ElasticSearch 映射到 hdfs的快照

一、下载: https://artifacts.elastic.co/downloads/elasticsearch-plugins/repository-hdfs/repository-hdfs-5.4.0.zip 二、安装 ./bin/elasticsearch-plugin ins...

2017-05-31 18:21:00 201

转载 hadoop通过NFS3挂载hdfs

1、在core-site.xml上添加以下配置,再重启 2、停止系统本身的nfs/rpcbind/portmap服务 service nfs stop service rpcbind stop 注意:rpcbind.socket 端口占用的话 systemctl status ...

2017-05-27 14:42:00 471

转载 logstash5.4 安装配置

一、下载用yum 安装 二、插件 查看可安装的插件 /usr/share/logstash/bin/logstash-plugin list 安装插件 /usr/share/logstash/bin/logstash-plugin install logstash-filter-date...

2017-05-25 17:09:00 253

转载 spark介绍

以SparkContext为程序运行的总入口,在SparkContext的初始化过程中,Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。作业调度模块为每个Spark作业计算具有依赖关系的多个调度阶段(通常根据shuffle来划分),然后...

2017-05-18 18:54:00 86

转载 会议室温度变化

会议室温度变化 一、概述与背景分析 常用于拟合温度变化模型的有线性回归和非线性回归组合模型,由于会议室的温度在很多时候都是随机的、非线性的变化,所以显然线性回归模型并不是很适合。 目前业界比较多的是用BP神经网络模型拟合会议室温度变化,但是RBF神经...

2017-03-24 09:40:00 303

转载 SVD详解

SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、特征压缩(或称数据降维)。SVD可以理解为:将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示,这3个小矩阵描述了大矩阵重要的...

2017-03-07 22:44:00 248

转载 数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是...

2017-03-02 21:47:00 128

转载 spark 性能调优

算子优化 1、rdd持久化: //需要常用的rdd,并且计算时间长 //直接在内存的StorageLevel.MEMORY_ONLY //内存溢出时建议使用MEMORY_ONLY_SER,先序列化再保存在内存中 //内存还是不够的化,MEMORY_AND_DISK_SER rdd.ca...

2017-02-14 18:07:00 70

转载 celery + redis

celery 是一种分布式任务队列 以下是需要理解的几种概念 任务:消息队列里面的一个工作单元 分布式:独立Worker可以布在不同的机器上,一个worker可以指定并发数 Broker:消息通讯的中间人,主要有RabbitMQ, Redis(本例用的是redis,较为轻量级) be...

2017-01-23 15:58:00 243

转载 python的几种有用的函数 itertools库

import itertools b = [('a', -1), ('b', 'b1'), ('c', 'cs')] #笛卡尔积 list(itertools.product(*b)) [('a', 'b', 'c'), ('a', 'b', 'cs'), ('a', 'b1', '...

2017-01-22 14:43:00 112

转载 spark dataframe 新增列

往往对df增加列是比较常见的操作,df合并,转rdd之类的操作 有下面几种方式: import org.apache.spark.sql.functions._ 1、如果增加的列是基于df列的变化 //新增一列以oldColName * 2 为新列,$"oldColName" 相当于...

2017-01-17 17:42:00 333

转载 ubuntu16.04 安装 搜狗输入法

首先搜狗输入法是依赖fcitx的 安装 sudo dpkg -i sogoupinyin_2.1.0.0082_amd64.deb 错误信息: dpkg: 依赖关系问题使得 sogoupinyin 的配置工作不能继续: sogoupinyin 依赖于 libopencc2 | li...

2017-01-11 15:13:00 244

转载 scrapy使用

scrapy是python的开源爬虫框架,个人觉得还蛮好用的 安装就不多提了,官网上有很详细的安装流程 创建项目 scrapy startproject web_spider 便会出现以下目录结构 web_spider/ scrapy.cfg web_spider...

2017-01-10 18:01:00 132

转载 GreenPlum 使用

GreenPlum简介 GP是一个关系型数据库集群,由数个独立的数据库服务组合成的逻辑数据库,采用Shared-Nothing架构,整个集群由很多个数据节点(Segment Host)和控制节点(Master Host)组成,其中每个数据节点上可以运行多个数据库。简单来说,Shared-N...

2017-01-10 16:52:00 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除