code__online-CSDN博客

原创 hadoop集群搭建（超详细版）

1.准备好需要安装的软件虚拟机VMware12.pro操作系统CentOS 6.5远程控制虚拟机的终端SecureCRT8.12.在虚拟机中安装CentOS操作系统安装好虚拟机，图形界面如下图创建新的虚拟机，选择自定义（高级），点击下一步虚拟机硬件兼容性默认，浏览需要安装的CentOS6.5镜像文件自定义用户名和密码（用于登录）设置虚...

2018-05-03 12:09:13 107412 60

原创 canal的INVALID_TOPIC_EXCEPTION问题

canal INVALID_TOPIC_EXCEPTION问题

2022-01-12 10:26:51 1851

常见问题Hbase协处理器同步数据到elasticsearch搜索引擎，如果代码有问题，将会导致Hbase集群挂掉，无法重启Hbase集群。解决方案修改hbase配置文件hbase-site.xml<property> <name>hbase.coprocessor.abortonerror</name> <value>false</value></property>重启hbase集群，解绑hbase表的协

2021-06-19 21:23:52 528 3

转载 Elasticsearch原理

基本概念索引（Index）ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库，或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。类型（Type）类型是索引内部的逻辑分区(category/partitio...

2021-06-10 17:41:32 221

原创实时计算Flink

实时计算Flink三种实时计算框架storm、spark streaming和flink的对比storm延迟低但吞吐量小spark streaming吞吐量大，但延迟高flink是一种兼具低延迟和高吞吐量特点的流计算技术，还是一套框架中能同时支持批处理和流处理的一个计算平台Flink流处理特性高吞吐、低延迟、高性能支持带有事件时间的窗口（Window）操作支持有状态计算的Exactly-once语义支持高度灵活的窗口（Window）操作，支持基于time、count、session

2021-05-02 19:48:22 1083 9

原创 Microsoft visual c++ 14.0 is required问题

python有时使用pip包管理器安装库时，会报错Microsoft visual c++ 14.0 is required。例如：pip install saslerror: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools针对这种情况，有两种解决方案方法1

2020-11-12 10:19:11 230

原创大数据之Hue

1. Hue简介HUE=Hadoop User Experience(Hadoop用户体验)，直白来说就一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。2. Hue与其他框架的集成2.1 Hue与HDFS2.1.1 集群环境master

2020-10-18 15:56:11 635

原创 Centos7安装hue

Hue 在编译时有两种方式:通过maven、ant编译通过python编译（centos7下的Python为2.7版本）两种方式都是在hue目录下 make apps。第一种方式需要先配置maven、ant的环境注：不要使用root 用户安装，选择集群中的一台机器安装hue（不能安装mysql）1. 必备软件环境Centos 6.8Python 2.7 (系统自带)apache-maven-3.3.9-bin.tarjdk-8u171-linux-x64.tarapache-ant-1

2020-10-18 15:13:16 589 1

原创 hue-hbase查询

hue入口：http://hue服务器地址:8888/（默认端口为8888）hue web页面如下选择Data Browser下的Hbase，进入Hbase页面选择Hbase的一个表，点击进入，可查看此表的数据格式Hbase表的数据查询窗口如下，查询语句格式如图主键查询输入主键rowkey，rowkey2说明：查询对应主键rowkey的数据记录例如：查询主键100_1233,100_1237对应记录主键的前缀模糊查询row_prefix*说明：根据主键的前几位进行模糊查询，默

2020-10-18 12:03:36 3758

原创 kafka可视化之kafka Manager

1. 下载kafka-manager[root@master local]# wget https://github.com/yahoo/CMAK/archive/1.3.3.15.tar.gz2. 解压至指定目录[root@master local]# tar -zxvf 1.3.3.15.tar.gz -C /usr/local/3. 修改配置文件conf/application.conf#配置zookeeper集群信息kafka-manager.zkhosts="master:2181

2020-09-19 16:50:59 229

原创 Kafka Monitor安装

1. 下载KafkaOffsetMonitor-assembly-0.4.6.jar2. 在指定文件下下创建kafka-offset-console目录[root@master local]# mkdir kafka-offset-console3. 将jar包放至kafka-offset-console目录下4. 在kafka-offset-console目录下创建启动脚本start.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.4.

2020-09-19 16:35:56 654

原创大数据之Kafka集群搭建

1. kafka集群masterslave1slave2zookeeperzookeeperzookeeperkafkakafkakafka2. 下载kafka安装包[root@master local]# wget https://archive.apache.org/dist/kafka/0.10.2.1/kafka_2.11-0.10.2.1.tgz3. kafka集群部署3.1 解压至安装路径[root@master local]# tar -z

2020-09-19 15:49:37 340

原创分布式计算框架Spark

一、spark三种模式本地模式./bin/run-example SparkPi 10 --master local[2]集群模式 spark standalone（spark独立集群模式）./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 ...

2019-08-27 21:18:48 431

原创 Hive1.x安装

1. 下载hive源码包master[root@master local]# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz2. 解压hive压缩包至指定路径[root@master local]# tar -zxvf apache-hive-1.2...

2019-06-23 15:06:33 497

原创 Spark+Scala安装

集群环境hostnameIPmaster192.168.63.12slave1192.168.63.13slave2192.168.63.14Scala安装master下载scala包wget https://downloads.lightbend.com/scala/2.11.4/scala-2.11.4.tgz解压至指定路径tar -z...

2019-06-17 15:10:10 1028

原创处理不平衡样本集的采样方法

在训练二分类模型时，例如医疗诊断、网络入侵检测、信用卡反诈骗等，经常会遇到正负样本不均衡的问题。对于分类算法，如果直接采用不平衡的样本集进行训练学习，会存在一些问题。例如，如果正负样本比例达到1:99，则分类器简单地将所有样本都判定为负样本能达到99%的正确率，显然这并不是我们想要的，我们想让分类器在正样本和负样本上都有足够的准确率和召回率。为什么很多分类模型在训练数据不均衡时会出现问题？本质...

2019-06-09 22:12:11 3664

原创过拟合和欠拟合

在模型评估与调整的过程中，往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象，并有针对性地进行模型调整，是不断改进机器学习模型的关键。过拟合是指模型对于训练数据出现过度拟合的情况，反映到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现很差。欠拟合是指模型在训练和预测时表现都不好的情况。下图描述了过拟合和欠拟合的区别：可以看出，图a是欠拟合...

2019-06-09 21:23:10 530

原创模型的超参数调优

超参数是一个参数，是一个未知变量，但是它不同于在训练过程中的参数，它是可以对训练得到的参数有影响的参数，需要训练者人工输入，并作出调整，以便优化训练模型的效果。为了进行超参数调优，我们一般会采用网格搜索、随机搜索、贝叶斯优化等算法。在具体介绍算法之前，需要明确超参数搜索算法一般包括哪几个要素。一是目标函数，即算法最大化/最小化的目标；二是搜索范围，一般通过上限和下限来确定；三是算法的其他参数，如...

2019-06-09 21:00:52 2182

原创模型评估的方法

模型评估过程中，有哪些主要的验证方法，它们的优缺点是什么？Holdout检验Holdout检验是最简单也是最直接的验证方法，它将原始的样本集合随机划分成训练街和验证集。比方说，对于一个点击率预测模型，把样本按照7:3的比例分成两部分，70%的样本用于模型训练；30%的样本用于模型验证，包括绘制ROC曲线、计算精确率和召回率等指标来评估模型性能。Holdout检验的缺点很明显，即在验证集上计算...

2019-06-09 20:42:24 450

原创模型评估

在机器学习领域中，为了检验训练好的模型性能，需要对模型进行评估。而且不同类型的模型所使用的评估方法也会有所差异。只有选择与问题相匹配的评估方法，才能快速地发现模型选择或训练过程中出现的问题，迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择有所不同。分类问题分类模型的常用评估指标有准确率、精确率、回召率、F1...

2019-06-09 20:20:32 4752

原创特征工程

特征工程特征预处理特征选择特征工程对于一个机器学习问题，数据和特征决定了结果的上限，而模型、算法的选择及优化是在逐步逼近这个上限。特征工程，顾名思义，是对原始特征进行一系列的工程处理，生成有价值的新特征，并将这些特征作为输入以供算法和模型使用。基本的操作为衍生（升维）、筛选（降维）等。通过归纳和总结，将特征工程分为以下方面：特征预处理...

2019-06-06 22:30:24 1098

转载因子分解机FM算法原理

　　　　对于分解机(Factorization Machines，FM)推荐算法原理，本来想自己单独写一篇的。但是看到peghoty写的FM不光简单易懂，而且排版也非常好，因此转载过来，自己就不再单独写FM了。Pinard注：上面最后一句话应该是"而gθ(x)gθ(x)来计算"...

2019-06-02 14:40:37 586

原创 PCA主成分分析

1. 背景在研究多变量的数据时，变量太多不仅导致数据的复杂性，而且不同的变量之间可能存在一定的相关关系，即两个变量之间的信息有一定的重叠，这无疑为分析问题增加了难度。为了提取数据中的主要信息成分，提出了一个新的降维方法PCA。主成分分析（Principal Component Analysis，简称PCA）是最常用的一种降维方法。它是将原先提出的所有变量中关系紧密的变量删除，建立尽可能少的新变量...

2019-06-01 21:47:22 620

原创矩阵分解SVD原理

常用的经典矩阵分解算法：经典算法PCA、SVD主题模型算法LDA概率矩阵分解PMF，由深度学习大牛Ruslan Salakhutdinov所写，主要应用于推荐系统中，在大规模的稀疏不平衡性Netflix数据集上取得较好的效果；非负矩阵分解（No你negative MatrixFactor）NMF，由Lee和 Seung 在《Nature》上提出，应用于文本聚类；1. 特征值、特征向...

2019-05-30 20:28:06 16009 6

原创大数据之实时处理SparkStreaming

1. Spark Streaming基础知识Spark Streaming是spark核心API的一个扩展，可以实现高吞吐量、有容错机制的实时流数据处理。支持多种数据源获取数据：Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后保存在HDFS、DataBase等。Spark Streaming将接收的实时流数据，按照一定时间间隔，对数据进...

2019-05-26 15:45:43 1617

原创 Yarn集群资源管理

hadoop1.0和hadoop2.0架构差异hadoop1.0：HDFS和MapReduce两个重要的进程：jobtracker和tasktrackerjobtracker：负责资源管理和任务调度与监控tasktracker：负责各个节点的任务调度与监控hadoop2.0：HDFS、yarn（集群资源管理系统）、计算框架{MapReduce、Spark、Storm……}yar...

2019-05-26 15:05:01 2608

原创中文分词和HMM模型

中文分词1. 切分方案的标识0有1/意2见3/分4歧5两种标识方案一个词的开始位置标识为1，其余位置标识为0，比如：[11010]切词的索引位置，则“0有1意2见3分4歧5”的分词结点序列{0，1，3，5}最常见的分词方法是基于词典匹配，规则是按照最大长度查找，由方向的不同可分为两类：前向查找和后向查找（后向查找准确度相对较高）数据结构为了提高查找效率，不要逐个匹配词典中的词...

2019-05-25 21:44:28 2489

原创支持向量机SVM之-SMO算法

序列

2019-05-25 14:48:37 3588

原创机器学习之-支持向量机SVM原理

支持向量机支持向量机（support vector machine，简称SVM）是一种二分类模型，它的基本模型是在特征空间上的间隔最大化的线性分类器，其学习模型的策略是间隔最大化，可转化为一个求解凸二次规划的最优化问题。训练后的线性分类器模型不仅保证了每个实例的预测类别准确性，而且还提高了每个实例的预测类别的置信度，从而增强了分类器模型的泛化能力。支持向量机支持的由简至繁的模型：线性可分支...

2019-05-24 16:26:55 923

转载随机森林和GBDT的区别

一、随机森林随机森林是一个用随机方式建立的，包含多个决策树的集成分类器。其输出的类别由各个树投票而定（如果是回归树则取平均）。假设样本总数为n，每个样本的特征数为a，则随机森林的生成过程如下：从原始样本中采用有放回抽样的方法选取n个样本；对n个样本选取a个特征中的随机k个，用建立决策树的方法获得最佳分割点；重复m次，获得m个决策树；对输入样例进行预测时，每个子树都产生一个结果，采用...

2019-05-18 21:35:08 217

原创 bagging和boosting的区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。1. Bagging (bootstrap aggregating)Bagging即套袋法，其算法过程如下：从原始...

2019-05-18 21:31:17 373

原创机器学习之决策树算法

1. 决策树模型决策树模型是一种树形结构，其依据一系列的if-then规则将数据集分散到各个叶子上。决策树分为两种：分类决策树和回归决策树。通常依据输出值y来判定决策树的种类，如果输出值是离散值，那么为分类决策树；如果输出值为连续值，则为回归决策树。决策树的主要优点是模型具有可读性、分类速度快。学习决策树时，利用训练数据，根据损失函数最小化的原则建立决策树模型。决策树的思想主要来源于由Quinl...

2019-05-18 18:19:34 458

原创集成学习之GBDT算法

Boosting树算法Boosting树算法采用的是前向分步算法，假设前m-1轮迭代得到的强学习器是fm−1(x)f_{m-1}(x)fm−1(x)，第m轮的迭代目标是训练一个CART回归树模型的弱学习器T(x;Θm)T(x;\Theta_m)T(x;Θm)，使得本轮的损失函数L(y,fm(x))=L(y,fm−1+T(x;Θm))L(y,f_m(x))=L(y,f_{m-1}+T(x;\T...

2019-05-17 15:19:48 730

原创集成学习之AdaBoost算法

集成学习依据个体学习器之间是否存在依赖关系分为两类：一类是个体学习器之间存在强依赖关系，其代表算法是boosting算法；另一类是个体学习器之间不存在强依赖关系，代表算法是bagging算法。AdaBoost是最著名的算法之一，既可以做分类问题，也可以解决回归问题。AdaBoost算法假设给定一个二类分类的训练集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\left\{(...

2019-05-16 17:34:06 571

原创 MapReduce原理解析

划分方法-最基本的海量技术思想传统Hash，最基本的划分方法将大数据、流量均分到N台服务器，找到合理的key，hash(key)尽量分布均匀，如hash(key) mod N == 0则将其分到第0台服务器随机划分一致性Hash：支持动态增长，更高级的划分方法一致性hash：考虑到分布式系统每个节点都有可能失效，并且新的节点很可能动态的增加进来，如何保证当系...

2019-05-15 17:55:09 794

原创集成学习的常见问题

1. 随机森林（random forest）和 GBDT 都是属于集成学习（ensemble learning）的范畴，有什么不同？集成学习下有两个重要的策略 Bagging 和 Boosting，Bagging算法是这样，每个分类器都随机从原样本中做有放回的采样，然后分别在这些采样后的样本上训练分类器，然后再把这些分类器组合起来，简单的多数投票一般就可以，其代表算法是随机森林。Boosting...

2019-05-15 16:38:23 1022

转载 CTR预估中GBDT与LR融合方案

1、背景 CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相...

2019-05-14 20:55:40 165

原创 LightGBM原理详解

GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛，通常被用于点击率预测，搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。LightGBM （Li...

2019-05-09 22:26:40 11774

原创集成学习之XGBoost原理

背景XGBoost 的全称是eXtreme Gradient Boosting，它是Gradient Boosting Machine的一个c++实现，在计算速度和准确率上相比较于GBDT有较大的提升。作者为正在华盛顿大学研究机器学习的大牛陈天奇。xgboost最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。它的处女秀是Kaggle的希格斯子信号识别竞赛...

2019-05-04 15:58:56 890

原创 Scala安装

集群环境节点 IP master 192.168.63.xx slave1 192.168.63.xx slave2 192.168.63.xx Scala安装master1. 下载scala包链接：https://downloads.lightbend.com/scala/2.11.4/scala-2.1...

2019-04-23 19:05:38 200

空空如也

空空如也