自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(21)
  • 收藏
  • 关注

转载 mycat - 简单安装与测试

安装 mycat提供了多种系统的安装包载地址:http://dl.mycat.io/,本文使用1.6.7.3版本。 mycat是用JDK开发的,所以需要安装JDK1.7版本以上。 windows下安装 运行 startup_nowrap.bat,启动成功后,在窗口输出sucess...

2019-08-18 18:21:00 211

转载 逻辑回归模型的评测

混淆矩阵 混淆矩阵是对有监督学习分类算法准确率进行评估的工具。通过将模型预测的数据与测试数据进行对比,使用准确率,覆盖率和命中率等指标对模型的分类效果进行度量。 在这里,Positive表示为1的值,在测试集中的表示已购买。Negative则表示未购买。 True Posit...

2019-08-04 23:31:00 914

转载 jupyter自动代码补全

jupyter notebook 用来写python代码蛮舒服的,唯一的缺点就是代码提示需要主动按tab键。通过插件Hinterland能解决这个问题。 1. 通过 anaconda prompt 进入控制台 2. 安装nbextensions pip install jupyter_c...

2019-08-04 10:59:00 393

转载 机器学习 - 如何使用 Java 调取 Python、R 的训练模型?

在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。 PMML PMML 是 Predictive Model Markup Language 的缩写,...

2019-08-03 13:42:00 851

转载 机器学习 - 统计学中的均值、方差、标准差

统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量...

2019-08-03 10:08:00 3648

转载 机器学习 - 使用scikit-learn进行数据预处理

数据预处理 sklearn.preprocessing包提供了几个数据预处理中常用的功能和变换器,用于将原始特征向量更改为更适合进行机器学习模型的形式。一般来说,数据的标准化使得机器学习算法更加显著,如果数据集中存在一些离散值,显然对数据进行稳定的缩放或转换显然是很有必要的。 标准化 ...

2019-08-03 09:40:00 435

转载 python - 自带库及第三方库api察看

python自带了所有库的文档查看器,配置如下: 配置pydoc服务,cmd中输入如下代码: python –m pydoc –p 1234 在浏览器中输入网址:http://localhost:1234/,打开python自带的及集成的第三方库的api。 界面类似如下: ...

2019-08-02 16:47:00 385

转载 python - sklearn.preprocessing.Imputer

在数据集中可能会出现为空的数据,我们不能删除有空数据的列,这样会对我们机器学习的结果造成影响,在data science中我们可以用NaN代替空值,但是在ML中必须要求数据为numeric。所以我们可以用该列的平均值来代替空值 填补缺失值:sklearn.preprocessing.Impu...

2019-08-02 16:32:00 347

转载 python - Matplotlib

Matplotlib是Python中最常用的可视化工具,可以非常方便的生成出版质量级的图片,只需几行代码,就可以生成直方图、功率谱、条形图、错误图、散点图、饼图以及基本的3D图表。在使用中一般使用如下载入matplotlib的绘图库: import matplotlib.pyplot as ...

2019-08-02 09:42:00 330

转载 python - Pandas

Pandas 是一个很强大的数据科学分析工具,你可以把它当做是Excel。它是NumPy的延伸库。如果结合NumPy使用,基本上可以解决大多数据问题。 我将从下面几个方面来介绍Pandas的一些常用功能和函数: Series 级数 DataFrames 数据框 Missing ...

2019-08-02 09:35:00 312

转载 python - NumPy

NumPy是Python的一个线性代数库,在数据科学研究和学习中扮演很重要的角色,这篇文章将带大家学习一些常用的功能,并且教会大家如何参考NumPy API。 安装 如何安装我就不详细说了,建议大家安装一个Python的集成安装管理器,比如Anacoda。 使用NumPy 通过以下...

2019-08-02 09:26:00 172

转载 elasticsearch 5.x - 数据类型与映射

在前面的文章中,我们创建了索引为bank的文档结构,但是,在创建1000个文档的时候,并没有指出他们每个属性的数据类型。在没有数据类型映射定义的情况下创建文档,这在ES中是允许的,因为ES会帮我们自动映射数据类型。但是,在我们的项目中,必须要先定义文档的数据类型,再操作文档,因为我们需...

2019-07-28 19:46:00 553

转载 elasticsearch 5.x - IK分词器

ik分词器的地址https://github.com/medcl/elasticsearch-analysis-ik/releases,分词器插件需要和ES版本匹配 由于es是5.6.16版本,所有我们下载5.6.16 https://github.com/medcl/elastics...

2019-07-28 15:54:00 727

转载 ELK资源下载集合

啃爹的elastic公司,如果需要下载历史版本,点击Viewpast releases后,会跳转到https://www.elastic.co/downloads/past-releases,不知道是不是CN的缘故,除了 FileBeat 选不到其他的产品。下面将给出怎么获取其他产...

2019-07-28 09:38:00 1920

转载 elasticsearch 5.x - 实现简单的搜索

数据准备 通过ES的批量导入API,导入在文件中的1000条银行账户信息,该1000个文档放在bank索引中(在account类型下),数据来源https://raw.githubusercontent.com/elastic/elasticsearch/master/docs/...

2019-07-27 23:00:00 268

转载 elasticsearch 5.x - 探索restful API

在elasticsearch 5.x - 初步安装文章中,已经成功启动了一个单节点的ES集群,并通过 localhost:9200 访问了ES的restful接口,获取到了本节点的一些信息。Elasticsearch 提供了非常全面和强大的REST API,我们可以通过它去跟集群交互。通过...

2019-07-27 20:58:00 238

转载 elasticsearch 5.x - 初步安装

关于版本 在决定使用 Elasticsearch 的时候首先要考虑的是版本问题,Elasticsearch (排除 0.x 和 1.x)目前有如下常用的稳定的主版本:2.x,5.x,6.x,7.x(current)。 你可能会发现没有 3.x 和 4.x,ES 从 2.4.6 直接...

2019-07-27 15:31:00 178

转载 Scala基础 - 下划线使用指南

下划线这个符号几乎贯穿了任何一本Scala编程书籍,并且在不同的场景下具有不同的含义,绕晕了不少初学者。正因如此,下划线这个特殊符号无形中增加Scala的入门难度。 1. 用于替换Java的等价语法 由于大部分的Java关键字在Scala中拥有了新的含义,所以一些基本的语法在Scala中...

2019-07-18 22:29:00 110

转载 Hadoop windows本地环境安装

有时候需要调试hadoop的程序,如果都要传到linux上,非常不方便。我们可以搭建一个windows的单机版本hadoop环境,测试我们的代码。 一、下载所需文件 JDK下载地址,jdk1.8下载 Hadoop下载,hadoop下载,进去后找到一个版本然后点击 Binary d...

2019-07-13 20:53:00 145

转载 VirtualBox 增加 CentOS 7 根目录容量

扩充磁盘容量 调节该虚拟机的硬盘大小 centos7 逻辑卷扩展(LVM) 查看分区信息 fdisk -l 只有sda1,sda2.通过 fdisk /dev/sda 进行分区,生成一个新的逻辑分区 sda4 将分区 sda4 格式化为ext4格式 mkfs....

2019-07-07 16:47:00 434

转载 flume自定义组件的 jar 包管理

自定义flume 组建后,将项目打成jar 包,关于这个jar 包的管理和使用我在这里列举了三中方式。这三种方式都可以,随自己喜好使用。 1. lib 目录 将maven项目打成jar包,将jar 包放到flume的lib 目录下。 此方法简单粗暴,缺点就是jar 包不易管理 2...

2019-06-25 21:35:00 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除