自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 matplot--annotate()函数

函数功能:添加图形内容细节的指向型注释文本。s:str, 注释信息内容xy:(float,float), 箭头点所在的坐标位置xytext:(float,float), 注释内容的坐标位置weight: str or int, 设置字体线型,其中字符串从小到大可选项有{‘ultralight’, ‘light’, ‘normal’, ‘regular’, ‘book’, ‘medium’,...

2019-08-08 18:23:26 635

原创 数据预处理--生成多项式特征(PolynomialFeatures)

使用 scikit-learn提供的PolynomialFeatures 这个类可以进行特征的构造, 例如有两个特征a和b,由这两个特征构造的特征项为[1, a, b, a2, a*b, b2]。PolynomialFeatures 这个类有 3 个参数:degree:控制多项式的次数;interaction_only:默认为 False,如果指定为 True,那么就不会有特征本身和本身结合...

2019-08-02 15:37:32 4060

原创 Pandas groupby

我们经常需要对某些标签或索引的局部进行累计分析,这时候需要用到groupby函数了。其中groupby函数的as_index参数有以下介绍:as_index : boolean, default TrueFor aggregated output, return object with group labels as the index. Only relevant for DataFram...

2019-07-31 17:52:18 493

原创 数据预处理--特征缩放

1.class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)通过将每个特征缩放到给定范围来。该估计器(estimator)单独地将每个特征缩放和转换,使数值落在给定的范围内,例如, 介于0和1之间。MinMaxScaler类的参数有:feature_range : tuple (min, max), ...

2019-07-25 10:14:27 793

原创 数据预处理--填充缺失值(scikit-learn SimpleImputer类)

SimpleImputer类提供了输入缺失值的基本策略。缺失值可以用常量值或使用缺失值所在列的统计信息(平均值、中位数或最频繁)进行填充。以下代码演示如何使用包含缺少值的列(轴0)的平均值替换缺少值。import numpy as npfrom numpy import nan as NAimp = SimpleImputer(missing_values=NA, strategy='me...

2019-07-24 15:49:38 11330

原创 使用决策树和随机森林预测NBA获胜球队

NBA比赛通常是难分胜负,有些时候会在最后一刻才会决出胜负,因此,预测那支球队最后获胜会非常困难。通常你看好的球队恰恰在这场比赛中就会输给比它弱的球队。许多预测比赛胜负的研究往往会有准确率上限,根据不同的比赛,准确率一般会在70%~80%之间,体育赛事的预测一般使用数据挖掘和统计学习方法。在此,我们将用到决策树和随机森林来预测谁是某场NBA比赛的获胜队,决策树有两个主要的优势:(1)决策过程...

2018-09-22 17:15:18 8527 1

原创 Python中的sorted函数以及operator.itemgetter函数

operator.itemgetter函数operator模块提供了itemgetter()函数,可以通过指定该函数的参数(参数代表维度)来获取对象的相应维度的数据,可以通过一个例子看一下:from operator import itemgetterdirection = ['west', 'south', 'north', 'east']desc1 = itemgetter(2)...

2018-08-23 18:33:06 295

原创 ARRAY、MAP和STRUCT的使用

1. array在本地路径/root/runjar/下创建一个employees.tsv的文件,里面的数据如下:Frances Operations,2012-03-01Greg Engineering,2003-11-18Harry Intern,2012-05-15Iris Executive,2001-04-08Jan Support,2009-03-30...

2018-07-20 18:25:41 1093

原创 正则表达式

1. Pattern类和Matcher类如果要在程序中应用正则表达式则必须依靠Pattern类和Matcher类,这两个类都在java.util.regex包中定义。Pattern类的主要作用是进行正则规范,而Matcher类主要是执行规范,验证一个字符串是否符合其规范。 常用的正则规范如表1~3所示:表1 常用的正则规范 表2 数量表示(X表示一组规范) 表3 逻辑运算符...

2018-07-15 22:01:49 244

原创 普通用户权限(sudo)安装CDH

在生产环境中,很多时候集群管理者并没有开放root权限给你来安装CDH,这时候管理者只会开放部分权限,这时涉及这些已经开放的权限时,你必须运用sudo执行。本文接下来先从root权限入手,首先格式化并挂载磁盘,然后开放部分权限给huaxin这个普通用户,最后通过huaxin这个用户安装CDH。创建普通用户 [root@localhost ~]# useradd huaxin[root@l...

2018-07-10 21:07:31 5986

原创 Centos格式化挂载

fdisk命令在Linux系统中,管理硬盘设备最常用的方法就当属fdisk命令了。fdisk命令用于管理磁盘分区,格式为“fdisk [磁盘名称]”,它提供了集添加、删除、转换分区等功能于一身的“一站式分区服务”。不过与前面讲解的直接写到命令后面的参数不同,这条命令的参数是交互式的,因此在管理硬盘设备时特别方便,可以根据需求动态调整。下面列出fdisk命令中的参数以及作用。参数 ...

2018-07-10 19:42:44 619

原创 卸载CDH5.14.2

1.在Cloudera Manager控制台停止所有服务:2. 停止Cloudera Manager service3. 移除parcel包假如是通过 packages 来安装的,那么请跳过这个步骤。本文是针对parcel包方式进行安装。 在CM界面右上角点击Parcel包的图标: 在页面右边点击停用CDH5,”停用”对于英文(Deactive) 4....

2018-07-10 16:34:20 1759

原创 expect简介和实例

1. 介绍expect是建立在tcl语言基础上的一个工具,它可以让一些需要交互的任务自动化地完成。相当于模拟了用户和命令行的交互操作。 一个常用的场景就是批量配置集群无秘钥登录。如果集群的机器数量很多,手动一台一台地去每台机子去配置无密钥是非常糟糕的事情。使用expect功能,可以远程登录机器,并通过交互方式进行无秘钥登录。2. 安装Linux系统自身并没有安装expect和t...

2018-07-08 17:05:40 292

原创 Hive简易教程

这里已经默认你的系统成功安装Hive。1. 使用Hive在HDFS上创建Hive所需路径/tmp和/user/hive/warehousehadoop fs -mkdir /tmphadoop fs -mkdir /user/hive/warehouse修改上述路径的访问权限,使用户组具有写入权限hadoop fs -chmod g+w /tmphadoop fs -c...

2018-07-06 11:23:01 7114

原创 测试数据生成

集群在投入生成环境前需要一些数据来测试集群的稳定性、高可用性和吞吐量等等,由于现实环境中未必有这么大的数据,以及数据是否符合后期挖掘要求,这里根据需求生成一个可用于生成环境的测试数据集。 这里生成的数据集包含12亿条数据,大小为0.4T左右,基本符合测试要求。每条数据包含5个字段,地市 | 区县 |IMSI | 时间 | UUID,比如: 0571|57111|13676863|18/5/2 ...

2018-07-03 20:50:36 839

原创 HBase表操作

下面代码提供了操作HBase表最基本功能:增删改差。废话不多说,直接上代码。import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.By...

2018-07-01 19:16:22 299

原创 java代码连接HBase(开启Kerberos和Sentry)

创建一个ZH_WG/wldatanode019的principal,并生成ZH_WG.keytab文件。 将hbase-site.xml和ZH_WG.keytab文件拷贝到conf目录下。注意,运行HBase代码的jar包放在当前目录下,而conf目录是当前目录的一个子目录。具体代码如下:import org.apache.hadoop.conf.Configuration;import ...

2018-06-25 16:58:58 2016 1

原创 Java NIO

从JDK 4开始,Java提供了另一套I/O系统,称为NIO。NIO支持面向缓冲区、基于通道的I/O操作。随着JDK 7的发布,Java对NIO系统进行了极大扩展,增强了对文件处理和文件系统特性的支持,因此通常我们将修改后的NIO称为NIO.2。需要强调的是,NIO系统并非用于替换java.io中基于流的I/O类。1. NIO类包含NIO类的包如下表所示: 2.缓冲区(Buffe...

2018-06-24 16:37:20 201

原创 Java I/O

**1. 文本I/O和二进制I/O** 核心:二进制I/O不涉及编码和解码,因此比文本I/O更为高效。计算机并不会区分文本文件和二进制文件。所有的文件都是通过二进制形式进行存储的。因此从本质上讲所有的文件都是二进制文件。文本I/O建立在二进制I/O的基础上,它提供了一层抽象,用于字符层次的编码与解码。在写入一个字符时,Java虚拟机会将统一码转化为文件的指定编码,而在读取字符时,...

2018-06-23 15:27:49 531

原创 Impala配置Kerberos认证和Sentry权限控制

集群说明: 集群有wlint01、wlnamenode01、wldatanode001~wldatanode018一共20个节点, 对应ip地址192.168.32.9~192.168.32.281.生成keytab文件 生成http.keytab文件[wlbd@wlint01 keytabFile]$ sudo kadmin.local -q "xst -norandkey -k ...

2018-06-21 14:09:57 5522 1

原创 CDH配置Sentry以及权限测试

在CDH中添加完Sentry服务后,需要更改一下hive配置才能通过beeline访问。 第一,修改Hive下的HiveServer2配置,如下所示: 将HiveServer2 Load Balancer中的admin去掉和HiveServer2 启用模拟的√去掉。 这里的admin是默认的,跟前面配置有关,之前没有去掉直接导致beeline连接不上。更改后如下: 第二,将Hive...

2018-06-15 14:13:37 12053 2

原创 java代码连接Hive(开启Kerberos和sentry)

在开启Kerberos认证之后,用户需要进入登入Hive CLI或beeline需要用到keytab。为此,我们现在Kerberos数据库中创建user1和user2两个principal。 生成user1和user2的keytabkadmin.local: xst -norandkey -k user1.keytab user1Entry for principal user1...

2018-06-11 12:35:28 7249 1

转载 JDBC连接MySQL数据库(Statement与PreparedStatement的区别)

Statement和PreparedStatement的区别:Statement为一条Sql语句生成执行计划, 如果要执行两条sql语句 select * from Student where lastName = “Durant”; select * from Student where lastName = “James”; 会生成两个执行语句 如果是100条,那就必须重复写10...

2018-06-08 16:48:44 10703

原创 Spark Streaming入门

Spark Streaming是一个有趣且强大的Spark扩展,它支持流数据或者快速的移动数据的近实时处理。 Spark Streaming实现了一个叫做“微批”(micro-batching)的概念,它将在线/流数据划分成若干明确的微批,每个微批作为一条记录被单独处理。每个微批的输出结果被发送到用户定义的输出流中,且能进一步存入HDFS、NoSQL,或者可以生成实时控制板。 批的大小受限于可接

2017-11-02 17:20:11 228 1

原创 scala基础知识--Ordering

trait Ordering[T] extends Comparator[T] with PartialOrdering[T] with Serializable 英文解释 Ordering is a trait whose instances each represent a strategy for sorting instances of a type.Ordering’s compani

2017-10-18 17:46:00 2953 1

原创 《Spark机器学习》第4章--构建基于Spark的推荐引擎

4.2 提取有效特征加载MovieLen数据集val rawData = sc.textFile("C:\\Users\\13798\\Desktop\\dataset\\ml-100k\\u.data")其输出类似如下所示: 14/03/30 11:42:41 WARN NativeCodeLoader: Unable to load native-hadoop library for you

2017-10-18 11:31:39 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除