chixuegui9567-CSDN博客

转载 cdh6安装

打通SSH，设置ssh无密码登陆（所有节点）1、在每台服务器上都执行ssh-keygen -t rsa生成密钥对: ssh-keygen -t rsa，一路回车，生成无密码的密钥对//将公钥添加到认证文件中：cat ~/.ssh/id_rsa.pub >> ~/.ssh...

2019-01-10 17:10:00 1627

转载 kafka 性能调优

# 每个topic默认partition数量，根据消费者实际情况配置，配置过小会影响消费性能 num.partitions=50 #日志传输时候的压缩格式，可选择lz4,snappy,gzip,不压缩。建议打开压缩，可以提高传输性能，压缩格式的选择可以参考文章结尾的参考资料。 com...

2017-06-02 15:59:00 513

转载 ElasticSearch 映射到 hdfs的快照

一、下载： https://artifacts.elastic.co/downloads/elasticsearch-plugins/repository-hdfs/repository-hdfs-5.4.0.zip 二、安装 ./bin/elasticsearch-plugin ins...

2017-05-31 18:21:00 201

转载 hadoop通过NFS3挂载hdfs

1、在core-site.xml上添加以下配置，再重启 2、停止系统本身的nfs/rpcbind/portmap服务 service nfs stopservice rpcbind stop 注意：rpcbind.socket 端口占用的话 systemctl status ...

2017-05-27 14:42:00 472

转载 logstash5.4 安装配置

一、下载用yum 安装二、插件查看可安装的插件/usr/share/logstash/bin/logstash-plugin list安装插件/usr/share/logstash/bin/logstash-plugin install logstash-filter-date...

2017-05-25 17:09:00 253

转载 spark介绍

以SparkContext为程序运行的总入口，在SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。作业调度模块为每个Spark作业计算具有依赖关系的多个调度阶段（通常根据shuffle来划分），然后...

2017-05-18 18:54:00 86

转载会议室温度变化

会议室温度变化一、概述与背景分析常用于拟合温度变化模型的有线性回归和非线性回归组合模型，由于会议室的温度在很多时候都是随机的、非线性的变化，所以显然线性回归模型并不是很适合。目前业界比较多的是用BP神经网络模型拟合会议室温度变化，但是RBF神经...

2017-03-24 09:40:00 303

转载 SVD详解

SVD(singular value decomposition)，翻译成中文就是奇异值分解。SVD的用处有很多，比如：LSA（隐性语义分析）、推荐系统、特征压缩（或称数据降维）。SVD可以理解为：将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示，这3个小矩阵描述了大矩阵重要的...

2017-03-07 22:44:00 248

转载数据归一化和两种常用的归一化方法

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是...

2017-03-02 21:47:00 128

转载 spark 性能调优

算子优化 1、rdd持久化： //需要常用的rdd,并且计算时间长//直接在内存的StorageLevel.MEMORY_ONLY//内存溢出时建议使用MEMORY_ONLY_SER，先序列化再保存在内存中//内存还是不够的化，MEMORY_AND_DISK_SERrdd.ca...

2017-02-14 18:07:00 70

转载 celery + redis

celery 是一种分布式任务队列以下是需要理解的几种概念任务：消息队列里面的一个工作单元分布式：独立Worker可以布在不同的机器上，一个worker可以指定并发数 Broker：消息通讯的中间人，主要有RabbitMQ, Redis(本例用的是redis,较为轻量级) be...

2017-01-23 15:58:00 243

转载 python的几种有用的函数 itertools库

import itertoolsb = [('a', -1), ('b', 'b1'), ('c', 'cs')]#笛卡尔积list(itertools.product(*b))[('a', 'b', 'c'), ('a', 'b', 'cs'), ('a', 'b1', '...

2017-01-22 14:43:00 112

转载 spark dataframe 新增列

往往对df增加列是比较常见的操作，df合并，转rdd之类的操作有下面几种方式： import org.apache.spark.sql.functions._ 1、如果增加的列是基于df列的变化 //新增一列以oldColName * 2 为新列，$"oldColName" 相当于...

2017-01-17 17:42:00 333

转载 ubuntu16.04 安装　搜狗输入法

首先搜狗输入法是依赖fcitx的安装 sudo dpkg -i sogoupinyin_2.1.0.0082_amd64.deb 错误信息： dpkg: 依赖关系问题使得 sogoupinyin 的配置工作不能继续： sogoupinyin 依赖于 libopencc2 | li...

2017-01-11 15:13:00 245

转载 scrapy使用

scrapy是python的开源爬虫框架，个人觉得还蛮好用的安装就不多提了，官网上有很详细的安装流程创建项目 scrapy startproject web_spider 便会出现以下目录结构 web_spider/ scrapy.cfg web_spider...

2017-01-10 18:01:00 132

转载 GreenPlum　使用

GreenPlum简介 GP是一个关系型数据库集群，由数个独立的数据库服务组合成的逻辑数据库,采用Shared-Nothing架构，整个集群由很多个数据节点（Segment Host）和控制节点（Master Host）组成，其中每个数据节点上可以运行多个数据库。简单来说，Shared-N...

2017-01-10 16:52:00 217

chixuegui9567的博客