自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

code__online的博客

小白的搬砖之路

  • 博客(41)
  • 收藏
  • 关注

原创 hadoop集群搭建(超详细版)

1.准备好需要安装的软件虚拟机VMware12.pro操作系统CentOS 6.5远程控制虚拟机的终端SecureCRT8.12.在虚拟机中安装CentOS操作系统安装好虚拟机,图形界面如下图创建新的虚拟机,选择自定义(高级),点击下一步虚拟机硬件兼容性默认,浏览需要安装的CentOS6.5镜像文件自定义用户名和密码(用于登录)设置虚...

2018-05-03 12:09:13 106626 60

原创 canal的INVALID_TOPIC_EXCEPTION问题

canal INVALID_TOPIC_EXCEPTION问题

2022-01-12 10:26:51 1717

原创 Hbase协处理器常见问题

常见问题Hbase协处理器同步数据到elasticsearch搜索引擎,如果代码有问题,将会导致Hbase集群挂掉,无法重启Hbase集群。解决方案修改hbase配置文件hbase-site.xml<property> <name>hbase.coprocessor.abortonerror</name> <value>false</value></property>重启hbase集群,解绑hbase表的协

2021-06-19 21:23:52 455 3

转载 Elasticsearch原理

基本概念索引(Index)ES将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说,索引相当于SQL中的一个数据库,或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。类型(Type)类型是索引内部的逻辑分区(category/partitio...

2021-06-10 17:41:32 182

原创 实时计算Flink

实时计算Flink三种实时计算框架storm、spark streaming和flink的对比storm延迟低但吞吐量小spark streaming吞吐量大,但延迟高flink是一种兼具低延迟和高吞吐量特点的流计算技术,还是一套框架中能同时支持批处理和流处理的一个计算平台Flink流处理特性高吞吐、低延迟、高性能支持带有事件时间的窗口(Window)操作支持有状态计算的Exactly-once语义支持高度灵活的窗口(Window)操作,支持基于time、count、session

2021-05-02 19:48:22 976 9

原创 Microsoft visual c++ 14.0 is required问题

python有时使用pip包管理器安装库时,会报错Microsoft visual c++ 14.0 is required。例如:pip install saslerror: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools针对这种情况,有两种解决方案方法1

2020-11-12 10:19:11 186

原创 大数据之Hue

1. Hue简介HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。2. Hue与其他框架的集成2.1 Hue与HDFS2.1.1 集群环境master

2020-10-18 15:56:11 529

原创 Centos7安装hue

Hue 在编译时有两种方式:通过maven、ant编译通过python编译(centos7下的Python为2.7版本)两种方式都是在hue目录下 make apps。第一种方式需要先配置maven、ant的环境注:不要使用root 用户安装,选择集群中的一台机器安装hue(不能安装mysql)1. 必备软件环境Centos 6.8Python 2.7 (系统自带)apache-maven-3.3.9-bin.tarjdk-8u171-linux-x64.tarapache-ant-1

2020-10-18 15:13:16 527 1

原创 hue-hbase查询

hue入口:http://hue服务器地址:8888/(默认端口为8888)hue web页面如下选择Data Browser下的Hbase,进入Hbase页面选择Hbase的一个表,点击进入,可查看此表的数据格式Hbase表的数据查询窗口如下,查询语句格式如图主键查询输入主键rowkey,rowkey2说明:查询对应主键rowkey的数据记录例如:查询主键100_1233,100_1237对应记录主键的前缀模糊查询row_prefix*说明:根据主键的前几位进行模糊查询,默

2020-10-18 12:03:36 3560

原创 kafka可视化之kafka Manager

1. 下载kafka-manager[root@master local]# wget https://github.com/yahoo/CMAK/archive/1.3.3.15.tar.gz2. 解压至指定目录[root@master local]# tar -zxvf 1.3.3.15.tar.gz -C /usr/local/3. 修改配置文件conf/application.conf#配置zookeeper集群信息kafka-manager.zkhosts="master:2181

2020-09-19 16:50:59 176

原创 Kafka Monitor安装

1. 下载KafkaOffsetMonitor-assembly-0.4.6.jar2. 在指定文件下下创建kafka-offset-console目录[root@master local]# mkdir kafka-offset-console3. 将jar包放至kafka-offset-console目录下4. 在kafka-offset-console目录下创建启动脚本start.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.4.

2020-09-19 16:35:56 599

原创 大数据之Kafka集群搭建

1. kafka集群masterslave1slave2zookeeperzookeeperzookeeperkafkakafkakafka2. 下载kafka安装包[root@master local]# wget https://archive.apache.org/dist/kafka/0.10.2.1/kafka_2.11-0.10.2.1.tgz3. kafka集群部署3.1 解压至安装路径[root@master local]# tar -z

2020-09-19 15:49:37 297

原创 分布式计算框架Spark

一、spark三种模式本地模式./bin/run-example SparkPi 10 --master local[2]集群模式 spark standalone(spark独立集群模式)./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 ...

2019-08-27 21:18:48 372

原创 Hive1.x安装

1. 下载hive源码包master[root@master local]# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz2. 解压hive压缩包至指定路径[root@master local]# tar -zxvf apache-hive-1.2...

2019-06-23 15:06:33 463

原创 Spark+Scala安装

集群环境hostnameIPmaster192.168.63.12slave1192.168.63.13slave2192.168.63.14Scala安装master下载scala包wget https://downloads.lightbend.com/scala/2.11.4/scala-2.11.4.tgz解压至指定路径tar -z...

2019-06-17 15:10:10 989

原创 处理不平衡样本集的采样方法

在训练二分类模型时,例如医疗诊断、网络入侵检测、信用卡反诈骗等,经常会遇到正负样本不均衡的问题。对于分类算法,如果直接采用不平衡的样本集进行训练学习,会存在一些问题。例如,如果正负样本比例达到1:99,则分类器简单地将所有样本都判定为负样本能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都有足够的准确率和召回率。为什么很多分类模型在训练数据不均衡时会出现问题?本质...

2019-06-09 22:12:11 3561

原创 过拟合和欠拟合

在模型评估与调整的过程中,往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键。过拟合是指模型对于训练数据出现过度拟合的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现很差。欠拟合是指模型在训练和预测时表现都不好的情况。下图描述了过拟合和欠拟合的区别:可以看出,图a是欠拟合...

2019-06-09 21:23:10 451

原创 模型的超参数调优

超参数是一个参数,是一个未知变量,但是它不同于在训练过程中的参数,它是可以对训练得到的参数有影响的参数,需要训练者人工输入,并作出调整,以便优化训练模型的效果。为了进行超参数调优,我们一般会采用网格搜索、随机搜索、贝叶斯优化等算法。在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一是目标函数,即算法最大化/最小化的目标;二是搜索范围,一般通过上限和下限来确定;三是算法的其他参数,如...

2019-06-09 21:00:52 2037

原创 模型评估的方法

模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么?Holdout检验Holdout检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练街和验证集。比方说,对于一个点击率预测模型,把样本按照7:3的比例分成两部分,70%的样本用于模型训练;30%的样本用于模型验证,包括绘制ROC曲线、计算精确率和召回率等指标来评估模型性能。Holdout检验的缺点很明显,即在验证集上计算...

2019-06-09 20:42:24 401

原创 模型评估

在机器学习领域中,为了检验训练好的模型性能,需要对模型进行评估。而且不同类型的模型所使用的评估方法也会有所差异。只有选择与问题相匹配的评估方法,才能快速地发现模型选择或训练过程中出现的问题,迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择有所不同。分类问题分类模型的常用评估指标有准确率、精确率、回召率、F1...

2019-06-09 20:20:32 4487

原创 特征工程

特征工程特征预处理特征选择特征工程对于一个机器学习问题,数据和特征决定了结果的上限,而模型、算法的选择及优化是在逐步逼近这个上限。特征工程,顾名思义,是对原始特征进行一系列的工程处理,生成有价值的新特征,并将这些特征作为输入以供算法和模型使用。基本的操作为衍生(升维)、筛选(降维)等。通过归纳和总结,将特征工程分为以下方面:特征预处理...

2019-06-06 22:30:24 1002

转载 因子分解机FM算法原理

    对于分解机(Factorization Machines,FM)推荐算法原理,本来想自己单独写一篇的。但是看到peghoty写的FM不光简单易懂,而且排版也非常好,因此转载过来,自己就不再单独写FM了。Pinard注:上面最后一句话应该是"而gθ(x)gθ(x)来计算"...

2019-06-02 14:40:37 556

原创 PCA主成分分析

1. 背景在研究多变量的数据时,变量太多不仅导致数据的复杂性,而且不同的变量之间可能存在一定的相关关系,即两个变量之间的信息有一定的重叠,这无疑为分析问题增加了难度。为了提取数据中的主要信息成分,提出了一个新的降维方法PCA。主成分分析(Principal Component Analysis,简称PCA)是最常用的一种降维方法。它是将原先提出的所有变量中关系紧密的变量删除,建立尽可能少的新变量...

2019-06-01 21:47:22 515

原创 矩阵分解SVD原理

常用的经典矩阵分解算法:经典算法PCA、SVD主题模型算法LDA概率矩阵分解PMF,由深度学习大牛Ruslan Salakhutdinov所写,主要应用于推荐系统中,在大规模的稀疏不平衡性Netflix数据集上取得较好的效果;非负矩阵分解(No你negative MatrixFactor)NMF,由Lee和 Seung 在《Nature》上提出,应用于文本聚类;1. 特征值、特征向...

2019-05-30 20:28:06 15785 6

原创 大数据之实时处理SparkStreaming

1. Spark Streaming基础知识Spark Streaming是spark核心API的一个扩展,可以实现高吞吐量、有容错机制的实时流数据处理。支持多种数据源获取数据:Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后保存在HDFS、DataBase等。Spark Streaming将接收的实时流数据,按照一定时间间隔,对数据进...

2019-05-26 15:45:43 1532

原创 Yarn集群资源管理

hadoop1.0和hadoop2.0架构差异hadoop1.0:HDFS和MapReduce两个重要的进程:jobtracker和tasktrackerjobtracker:负责资源管理和任务调度与监控tasktracker:负责各个节点的任务调度与监控hadoop2.0:HDFS、yarn(集群资源管理系统)、计算框架{MapReduce、Spark、Storm……}yar...

2019-05-26 15:05:01 2534

原创 中文分词和HMM模型

中文分词1. 切分方案的标识0有1/意2见3/分4歧5两种标识方案一个词的开始位置标识为1,其余位置标识为0,比如:[11010]切词的索引位置,则“0有1意2见3分4歧5”的分词结点序列{0,1,3,5}最常见的分词方法是基于词典匹配,规则是按照最大长度查找,由方向的不同可分为两类:前向查找和后向查找(后向查找准确度相对较高)数据结构为了提高查找效率,不要逐个匹配词典中的词...

2019-05-25 21:44:28 2367

原创 支持向量机SVM之-SMO算法

序列

2019-05-25 14:48:37 3463

原创 机器学习之-支持向量机SVM原理

支持向量机支持向量机(support vector machine,简称SVM)是一种二分类模型,它的基本模型是在特征空间上的间隔最大化的线性分类器,其学习模型的策略是间隔最大化,可转化为一个求解凸二次规划的最优化问题。训练后的线性分类器模型不仅保证了每个实例的预测类别准确性,而且还提高了每个实例的预测类别的置信度,从而增强了分类器模型的泛化能力。支持向量机支持的由简至繁的模型:线性可分支...

2019-05-24 16:26:55 846

转载 随机森林和GBDT的区别

一、随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点;重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,采用...

2019-05-18 21:35:08 186

原创 bagging和boosting的区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1. Bagging (bootstrap aggregating)Bagging即套袋法,其算法过程如下:从原始...

2019-05-18 21:31:17 336

原创 机器学习之决策树算法

1. 决策树模型决策树模型是一种树形结构,其依据一系列的if-then规则将数据集分散到各个叶子上。决策树分为两种:分类决策树和回归决策树。通常依据输出值y来判定决策树的种类,如果输出值是离散值,那么为分类决策树;如果输出值为连续值,则为回归决策树。决策树的主要优点是模型具有可读性、分类速度快。学习决策树时,利用训练数据,根据损失函数最小化的原则建立决策树模型。决策树的思想主要来源于由Quinl...

2019-05-18 18:19:34 411

原创 集成学习之GBDT算法

Boosting树算法Boosting树算法采用的是前向分步算法,假设前m-1轮迭代得到的强学习器是fm−1(x)f_{m-1}(x)fm−1​(x),第m轮的迭代目标是训练一个CART回归树模型的弱学习器T(x;Θm)T(x;\Theta_m)T(x;Θm​),使得本轮的损失函数L(y,fm(x))=L(y,fm−1+T(x;Θm))L(y,f_m(x))=L(y,f_{m-1}+T(x;\T...

2019-05-17 15:19:48 603

原创 集成学习之AdaBoost算法

集成学习依据个体学习器之间是否存在依赖关系分为两类:一类是个体学习器之间存在强依赖关系,其代表算法是boosting算法;另一类是个体学习器之间不存在强依赖关系,代表算法是bagging算法。AdaBoost是最著名的算法之一,既可以做分类问题,也可以解决回归问题。AdaBoost算法假设给定一个二类分类的训练集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\left\{(...

2019-05-16 17:34:06 510

原创 MapReduce原理解析

划分方法-最基本的海量技术思想传统Hash,最基本的划分方法将大数据、流量均分到N台服务器,找到合理的key,hash(key)尽量分布均匀,如hash(key) mod N == 0则将其分到第0台服务器 随机划分一致性Hash:支持动态增长,更高级的划分方法一致性hash:考虑到分布式系统每个节点都有可能失效,并且新的节点很可能动态的增加进来,如何保证当系...

2019-05-15 17:55:09 739

原创 集成学习的常见问题

1. 随机森林(random forest)和 GBDT 都是属于集成学习(ensemble learning)的范畴,有什么不同?集成学习下有两个重要的策略 Bagging 和 Boosting,Bagging算法是这样,每个分类器都随机从原样本中做有放回的采样,然后分别在这些采样后的样本上训练分类器,然后再把这些分类器组合起来,简单的多数投票一般就可以,其代表算法是随机森林。Boosting...

2019-05-15 16:38:23 936

转载 CTR预估中GBDT与LR融合方案

1、 背景      CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相...

2019-05-14 20:55:40 145

原创 LightGBM原理详解

GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。LightGBM (Li...

2019-05-09 22:26:40 10938

原创 集成学习之XGBoost原理

背景XGBoost 的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个c++实现,在计算速度和准确率上相比较于GBDT有较大的提升。作者为正在华盛顿大学研究机器学习的大牛陈天奇 。xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。它的处女秀是Kaggle的 希格斯子信号识别竞赛...

2019-05-04 15:58:56 802

原创 Scala安装

集群环境节点 IP master 192.168.63.xx slave1 192.168.63.xx slave2 192.168.63.xx Scala安装master1. 下载scala包链接:https://downloads.lightbend.com/scala/2.11.4/scala-2.1...

2019-04-23 19:05:38 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除