AndrewTeng-CSDN博客

原创 matplot--annotate()函数

函数功能：添加图形内容细节的指向型注释文本。s:str, 注释信息内容xy:(float,float), 箭头点所在的坐标位置xytext:(float,float), 注释内容的坐标位置weight: str or int, 设置字体线型，其中字符串从小到大可选项有{‘ultralight’, ‘light’, ‘normal’, ‘regular’, ‘book’, ‘medium’,...

2019-08-08 18:23:26 635

原创数据预处理--生成多项式特征（PolynomialFeatures）

使用 scikit-learn提供的PolynomialFeatures 这个类可以进行特征的构造，例如有两个特征a和b，由这两个特征构造的特征项为[1, a, b, a2, a*b, b2]。PolynomialFeatures 这个类有 3 个参数：degree：控制多项式的次数；interaction_only：默认为 False，如果指定为 True，那么就不会有特征本身和本身结合...

2019-08-02 15:37:32 4060

我们经常需要对某些标签或索引的局部进行累计分析，这时候需要用到groupby函数了。其中groupby函数的as_index参数有以下介绍：as_index : boolean, default TrueFor aggregated output, return object with group labels as the index. Only relevant for DataFram...

2019-07-31 17:52:18 493

原创数据预处理--特征缩放

1.class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)通过将每个特征缩放到给定范围来。该估计器（estimator）单独地将每个特征缩放和转换，使数值落在给定的范围内，例如，介于0和1之间。MinMaxScaler类的参数有：feature_range : tuple (min, max), ...

2019-07-25 10:14:27 793

原创数据预处理--填充缺失值（scikit-learn SimpleImputer类）

SimpleImputer类提供了输入缺失值的基本策略。缺失值可以用常量值或使用缺失值所在列的统计信息（平均值、中位数或最频繁）进行填充。以下代码演示如何使用包含缺少值的列（轴0）的平均值替换缺少值。import numpy as npfrom numpy import nan as NAimp = SimpleImputer(missing_values=NA, strategy='me...

2019-07-24 15:49:38 11330

原创使用决策树和随机森林预测NBA获胜球队

NBA比赛通常是难分胜负，有些时候会在最后一刻才会决出胜负，因此，预测那支球队最后获胜会非常困难。通常你看好的球队恰恰在这场比赛中就会输给比它弱的球队。许多预测比赛胜负的研究往往会有准确率上限，根据不同的比赛，准确率一般会在70%~80%之间，体育赛事的预测一般使用数据挖掘和统计学习方法。在此，我们将用到决策树和随机森林来预测谁是某场NBA比赛的获胜队，决策树有两个主要的优势：（1）决策过程...

2018-09-22 17:15:18 8527 1

原创 Python中的sorted函数以及operator.itemgetter函数

operator.itemgetter函数operator模块提供了itemgetter()函数，可以通过指定该函数的参数（参数代表维度）来获取对象的相应维度的数据，可以通过一个例子看一下：from operator import itemgetterdirection = ['west', 'south', 'north', 'east']desc1 = itemgetter(2)...

2018-08-23 18:33:06 295

原创 ARRAY、MAP和STRUCT的使用

1. array在本地路径/root/runjar/下创建一个employees.tsv的文件，里面的数据如下：Frances Operations,2012-03-01Greg Engineering,2003-11-18Harry Intern,2012-05-15Iris Executive,2001-04-08Jan Support,2009-03-30...

2018-07-20 18:25:41 1093

原创正则表达式

1. Pattern类和Matcher类如果要在程序中应用正则表达式则必须依靠Pattern类和Matcher类，这两个类都在java.util.regex包中定义。Pattern类的主要作用是进行正则规范，而Matcher类主要是执行规范，验证一个字符串是否符合其规范。常用的正则规范如表1~3所示：表1 常用的正则规范表2 数量表示（X表示一组规范）表3 逻辑运算符...

2018-07-15 22:01:49 244

原创普通用户权限(sudo)安装CDH

在生产环境中，很多时候集群管理者并没有开放root权限给你来安装CDH，这时候管理者只会开放部分权限，这时涉及这些已经开放的权限时，你必须运用sudo执行。本文接下来先从root权限入手，首先格式化并挂载磁盘，然后开放部分权限给huaxin这个普通用户，最后通过huaxin这个用户安装CDH。创建普通用户 [root@localhost ~]# useradd huaxin[root@l...

2018-07-10 21:07:31 5986

原创 Centos格式化挂载

fdisk命令在Linux系统中，管理硬盘设备最常用的方法就当属fdisk命令了。fdisk命令用于管理磁盘分区，格式为“fdisk [磁盘名称]”，它提供了集添加、删除、转换分区等功能于一身的“一站式分区服务”。不过与前面讲解的直接写到命令后面的参数不同，这条命令的参数是交互式的，因此在管理硬盘设备时特别方便，可以根据需求动态调整。下面列出fdisk命令中的参数以及作用。参数 ...

2018-07-10 19:42:44 619

原创卸载CDH5.14.2

1.在Cloudera Manager控制台停止所有服务：2. 停止Cloudera Manager service3. 移除parcel包假如是通过 packages 来安装的，那么请跳过这个步骤。本文是针对parcel包方式进行安装。在CM界面右上角点击Parcel包的图标：在页面右边点击停用CDH5，”停用”对于英文(Deactive) 4....

2018-07-10 16:34:20 1759

原创 expect简介和实例

1. 介绍expect是建立在tcl语言基础上的一个工具，它可以让一些需要交互的任务自动化地完成。相当于模拟了用户和命令行的交互操作。一个常用的场景就是批量配置集群无秘钥登录。如果集群的机器数量很多，手动一台一台地去每台机子去配置无密钥是非常糟糕的事情。使用expect功能，可以远程登录机器，并通过交互方式进行无秘钥登录。2. 安装Linux系统自身并没有安装expect和t...

2018-07-08 17:05:40 292

原创 Hive简易教程

这里已经默认你的系统成功安装Hive。1. 使用Hive在HDFS上创建Hive所需路径/tmp和/user/hive/warehousehadoop fs -mkdir /tmphadoop fs -mkdir /user/hive/warehouse修改上述路径的访问权限，使用户组具有写入权限hadoop fs -chmod g+w /tmphadoop fs -c...

2018-07-06 11:23:01 7114

原创测试数据生成

集群在投入生成环境前需要一些数据来测试集群的稳定性、高可用性和吞吐量等等，由于现实环境中未必有这么大的数据，以及数据是否符合后期挖掘要求，这里根据需求生成一个可用于生成环境的测试数据集。这里生成的数据集包含12亿条数据，大小为0.4T左右，基本符合测试要求。每条数据包含5个字段，地市 | 区县 |IMSI | 时间 | UUID，比如： 0571|57111|13676863|18/5/2 ...

2018-07-03 20:50:36 839

原创 HBase表操作

下面代码提供了操作HBase表最基本功能：增删改差。废话不多说，直接上代码。import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.By...

2018-07-01 19:16:22 299

原创 java代码连接HBase(开启Kerberos和Sentry)

创建一个ZH_WG/wldatanode019的principal，并生成ZH_WG.keytab文件。将hbase-site.xml和ZH_WG.keytab文件拷贝到conf目录下。注意，运行HBase代码的jar包放在当前目录下，而conf目录是当前目录的一个子目录。具体代码如下：import org.apache.hadoop.conf.Configuration;import ...

2018-06-25 16:58:58 2016 1

原创 Java NIO

从JDK 4开始，Java提供了另一套I/O系统，称为NIO。NIO支持面向缓冲区、基于通道的I/O操作。随着JDK 7的发布，Java对NIO系统进行了极大扩展，增强了对文件处理和文件系统特性的支持，因此通常我们将修改后的NIO称为NIO.2。需要强调的是，NIO系统并非用于替换java.io中基于流的I/O类。1. NIO类包含NIO类的包如下表所示： 2.缓冲区(Buffe...

2018-06-24 16:37:20 201

原创 Java I/O

**1. 文本I/O和二进制I/O** 核心：二进制I/O不涉及编码和解码，因此比文本I/O更为高效。计算机并不会区分文本文件和二进制文件。所有的文件都是通过二进制形式进行存储的。因此从本质上讲所有的文件都是二进制文件。文本I/O建立在二进制I/O的基础上，它提供了一层抽象，用于字符层次的编码与解码。在写入一个字符时，Java虚拟机会将统一码转化为文件的指定编码，而在读取字符时，...

2018-06-23 15:27:49 531

原创 Impala配置Kerberos认证和Sentry权限控制

集群说明：集群有wlint01、wlnamenode01、wldatanode001~wldatanode018一共20个节点，对应ip地址192.168.32.9~192.168.32.281.生成keytab文件生成http.keytab文件[wlbd@wlint01 keytabFile]$ sudo kadmin.local -q "xst -norandkey -k ...

2018-06-21 14:09:57 5522 1

原创 CDH配置Sentry以及权限测试

在CDH中添加完Sentry服务后，需要更改一下hive配置才能通过beeline访问。第一，修改Hive下的HiveServer2配置，如下所示：将HiveServer2 Load Balancer中的admin去掉和HiveServer2 启用模拟的√去掉。这里的admin是默认的，跟前面配置有关，之前没有去掉直接导致beeline连接不上。更改后如下：第二，将Hive...

2018-06-15 14:13:37 12053 2

原创 java代码连接Hive(开启Kerberos和sentry)

在开启Kerberos认证之后，用户需要进入登入Hive CLI或beeline需要用到keytab。为此，我们现在Kerberos数据库中创建user1和user2两个principal。生成user1和user2的keytabkadmin.local: xst -norandkey -k user1.keytab user1Entry for principal user1...

2018-06-11 12:35:28 7249 1

转载 JDBC连接MySQL数据库（Statement与PreparedStatement的区别）

Statement和PreparedStatement的区别：Statement为一条Sql语句生成执行计划，如果要执行两条sql语句 select * from Student where lastName = “Durant”; select * from Student where lastName = “James”; 会生成两个执行语句如果是100条，那就必须重复写10...

2018-06-08 16:48:44 10703

原创 Spark Streaming入门

Spark Streaming是一个有趣且强大的Spark扩展，它支持流数据或者快速的移动数据的近实时处理。 Spark Streaming实现了一个叫做“微批”(micro-batching)的概念，它将在线/流数据划分成若干明确的微批，每个微批作为一条记录被单独处理。每个微批的输出结果被发送到用户定义的输出流中，且能进一步存入HDFS、NoSQL，或者可以生成实时控制板。批的大小受限于可接

2017-11-02 17:20:11 228 1

原创 scala基础知识--Ordering

trait Ordering[T] extends Comparator[T] with PartialOrdering[T] with Serializable 英文解释 Ordering is a trait whose instances each represent a strategy for sorting instances of a type.Ordering’s compani

2017-10-18 17:46:00 2953 1

原创《Spark机器学习》第4章--构建基于Spark的推荐引擎

4.2 提取有效特征加载MovieLen数据集val rawData = sc.textFile("C:\\Users\\13798\\Desktop\\dataset\\ml-100k\\u.data")其输出类似如下所示： 14/03/30 11:42:41 WARN NativeCodeLoader: Unable to load native-hadoop library for you

2017-10-18 11:31:39 269

qq_30982323的博客