自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (8)
  • 收藏
  • 关注

原创 Hbase2.0版本协处理器的编写、加载与卸载

协处理器代码编写2.0版本之前,要想自己写协处理器,需要implement BaseRegionObserver2.0版本之后,则与之前有所不同,需要implement RegionObserver,RegionCoprocessor。同时还必须实现一个方法@Overridepublic Optional<RegionObserver> getRegionObserver() { return Optional.of(this);}如果没有添加此方法会报以下错误:2020

2020-07-05 18:52:46 1390

原创 kudu原理与使用

1、 kudu简介1.1、kudu是什么?简单来说:dudu是一个与hbase类似的列式存储分布式数据库。官方给kudu的定位是:在更新更及时的基础上实现更快的数据分析1.2、为什么需要kudu?1.2.1、hdfs与hbase数据存储的缺点目前数据存储有了HDFS与hbase,为什么还要额外的弄一个kudu呢?HDFS:使用列式存储格式Apache Parquet,Apache O...

2019-04-22 09:16:02 51147 15

原创 Centos6.10安装impala集成kudu之错误

Centos6.10安装impala集成kudu时,修改了hdfs-site.xml文件时,加入了下面属性:<property><name>dfs.domain.socket.path</name><value>/var/run/hdfs-sockets/dn</value></property>然后重新启动hdf...

2019-04-12 12:43:24 684

原创 Centos7安装kudu

1、下载kudu rpm包下载地址:https://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.14.0/RPMS/x86_64/下载rpm包如下:kudu-1.6.0+cdh5.14.0+0-1.cdh5.14.0.p0.47.el7.x86_64.rpmkudu-client0-1.6.0+cdh5.14.0+0-1.cdh5.14...

2019-04-10 21:11:14 1049

原创 随机森林

2019-03-18 19:50:27 175

原创 逻辑回归

2019-03-18 19:50:21 153

原创 岭回归

2019-03-18 19:50:13 360

原创 线性回归

2019-03-18 19:50:07 103

原创 分类模型的评估

2019-03-18 19:50:00 151

原创 模型的选择与调优

2019-03-18 19:49:52 262

原创 回归性能评估

2019-03-18 19:49:43 509

原创 决策树

2019-03-17 12:12:34 98

原创 朴素贝叶斯

2019-03-17 12:10:56 81

原创 K-近邻算法【KNN】

2019-03-17 12:09:15 116

原创 机器学习基础

数据类型: 离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。 连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。离散型是区间内不可分,连续型是区间内可分机器学习算法分类:监督学习(有特征值+目...

2019-03-17 11:46:35 80

原创 转换器与预估器

1、转换器: 之前特征工程里面实例化的例如:CountVectorizer,其实就是一个转换器2、预估器:分类器和回归器都属于estimator,是一类实现了算法的API用于分类的预估器: sklearn.neighbors k-近邻算法 sklearn.naive_bayes 贝叶斯 skl...

2019-03-17 11:45:18 394

原创 数据集的获取与划分

机器学习的数据集一般划分为两个部分:1、训练集:用于训练,构建模型2、测试集:在模型检验时使用,用于评估模型数据集划分API:sklearn.model_selection.train_test_split练习时可以使用sklearn提供的数据集sklearn数据集的获取:sklearn.datasets 加载获取流行数据集 datasets.loa...

2019-03-17 11:42:54 968

原创 特征工程

1、特征工程是什么特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性2、特征工程的意义直接影响模型的预测结果3、scikit-learn库介绍安装scikit-learn库:pip install Scikit-learn4、数据的特征抽取1、sklearn特征抽取API:sklearn.feature_extracti...

2019-03-17 11:36:36 298

原创 机器学习概述

1、机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测2、学习时的数据集Kaggle网址:https://www.kaggle.com/datasetsUCI数据集网址: http://archive.ics.uci.edu/ml/scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html...

2019-03-17 11:32:54 85

原创 Springboot2.0中Hibernate默认创建的mysql表字符集不为UTF8问题

在做机器学习平台时,用到的springboot+jpa通过@Entity生成的表,字符集为latin1,引擎为MyISAM,导致存入表中的中文乱码,只需要下面代码即可将创建的表引擎为InnoDB,字符集为utf8import org.hibernate.dialect.MySQL5InnoDBDialect;public class MysqlConfig extends MySQL5Inn...

2019-02-27 20:13:29 1566

原创 Hbase原理与使用

hbasehbase简介1.1. 什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。...

2019-02-20 17:53:20 2326 4

原创 Zeppelin整合spark

1、下载,zeppelin有两种,一种是集成了全部解释器的,一种是需要自己安装解释器的(其实里面也集成了spark和python),我下载的第二种2、修改zeppelin-env.sh,我这边是spark on yarn的模式,然后需要用到pysparkexport JAVA_HOME=/home/javaexport MASTER=yarn-clientexport SPARK_HOME...

2018-12-01 12:05:59 1955 2

原创 Flink集群搭建

1、Flink下载,选择与hadoop、scala匹配的版本2、解压,tar -zxvf flink-xxx.tartar -zxvf flink-6.2.tar /homecd /homemv flink-6.2 flnk3、配置flink-conf.yaml,主要配置一下几项:#java路径env.java.home:/home/java#jobmanager rpc地...

2018-11-18 21:49:49 183

原创 Flink源码解析(standalone)之taskmanager启动

1、简单粗暴,flink-daemon.sh脚本可知taskmanager执行类为:org.apache.flink.runtime.taskmanager.TaskManager2、main方法里面,最主要的就是启动taskmanagertry { SecurityUtils.getInstalledContext.runSecured(new Callable[Unit] {...

2018-11-16 17:48:11 1830

原创 Flink源码解析(standalone)之jobmanager启动

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-08-14 11:04:37 1267 1

lapgpd+jar

lapgpd+jar

2016-07-10

S2SH框架整合

S2SH框架整合

2016-07-10

SSM框架整合

SSM框架整合

2016-07-10

SSH框架整合

SSH框架整合

2016-07-10

mybatis+jar

mybatis+jar

2016-07-10

Spring依赖+jar

Spring依赖+jar

2016-07-10

spring+jar

spring+jar

2016-07-10

spring+jar包

spring+jar包

2016-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除