iken_g-CSDN博客

原创【scala使用spark报错】illegal cyclic inheritance involving trait Iterable val df = Seq(

报错信息illegal cyclic inheritance involving trait Iterable val df = Seq(原因scala和spark版本不相符笔者报错版本spark 2.1.1scala 2.13更改后版本spark 2.1.1scala 2.11.8运行成功注笔者在project structure的global Libraries （如上）添加scala版本，运行无效，报同样的错。后来在libraries添加后成功（如下），知道原因的留言教教小

2021-03-20 19:30:55 5635

原创【hadoop生态之Hbase】HBASE的优化【笔记+代码】

三、HBase的优化3.1、高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1) 关闭HBase集群（如果没有开启则跳过此步）$ bin/stop-hbase.sh2) 在conf目录下创建backup-masters文件$ touch conf/backup-masters3

2020-12-18 21:10:20 533 1

原创【hadoop生态之Hbase】HBase部署与使用【笔记+代码】

二、HBase部署与使用2.1、部署Hbase的安装请查看2.2、简单使用2.2.1 基本操作**进入****HBase****客户端命令行**bin/hbase shell2) 查看帮助命令hbase(main)> help3) 查看当前数据库中有哪些表hbase(main)> list4) 查看当前数据库中有哪些命名空间hbase(main)> list_namespace2.2.2 表的操作**创建表**hbase(main)>

2020-12-18 20:58:24 563 1

原创【hadoop生态之Hbase】HBASE简介【笔记+代码】

一、HBaes介绍1.1、HBase简介HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（族）的存储和权限控制，列（簇）独立检索稀疏：对于为空(null)的列，并不占用存储空间，因此，表的设计的非常的稀疏1.2、HBase的角色1.2.1、HMaster功能：监控RegionServer处理RegionServer故障转移处理元数据的变更处理reg

2020-12-18 20:32:02 381 1

原创【hadoop生态之Hive】Hive的查询语言【笔记+代码】

六、查询官方教程[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, elect_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY co

2020-12-14 15:44:44 631

原创【hadoop生态之Hive】Hive的DML数据操纵语言【笔记+代码】

五、DML数据操作5.1 数据导入5.1.1 向表中装载数据（Load）1）语法hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];（1）load data:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表（3）inpath:表示加载数据的路径（

2020-12-14 15:30:03 202

原创【hadoop生态之Hive】Hive的DDL数据定义语言【笔记+代码】

四、DDL数据定义4.1 创建数据库1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;可能出现的报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore D

2020-12-14 15:04:09 175

原创【hadoop生态之Hive】Hive的数据类型【笔记+代码】

三、Hive数据类型3.1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型，true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精

2020-12-14 14:50:16 218

原创【hadoop生态之Hive】Hive的基本概念和安装【笔记+代码】

一、Hive基本概念1.1 什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL/SQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上1.2 Hive的优缺点1.2.1 优点1）操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）2）

2020-12-14 14:01:44 222

原创【hadoop生态之Flume】概念【笔记+代码】

一、Flume简介Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色2.1、Source用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel

2020-12-14 13:48:11 217

原创 centos 设置为北京时间

CentOS7 修改默认时区为北京时间首先同步时间yum install -y ntpdatentpdate -u cn.pool.ntp.org该语句需要sudo权限，执行完后输入date查看是否设置完成

2020-12-11 21:04:44 734

原创【hadoop生态之ZooKeeper】第四章ZooKeeper实战【笔记+代码】

四、Zookeeper实战4.1 分布式安装部署0）集群规划在ikeng、ikeng2和ikeng3三个节点上部署Zookeeper。1）解压安装（1）解压zookeeper安装包到/opt/module/目录下[hadoop@ikeng software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/（2）在/opt/module/zookeeper-3.4.10/这个目录下创建zkData mkdir -p zkData

2020-12-10 16:01:42 627

原创【hadoop生态之ZooKeeper】第三章ZooKeeper内部管理【笔记+代码】

三、Zookeeper内部原理3.1 选举机制1）半数机制（Paxos 协议）：集群中半数以上机器存活，集群可用。所以zookeeper适合装在奇数台机器上。2）Zookeeper虽然在配置文件中并没有指定master和slave。但是，zookeeper工作时，是有一个节点为leader，其他则为follower，Leader是通过内部的选举机制临时产生的。3）以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没

2020-12-10 15:43:05 172

原创【hadoop生态之ZooKeeper】第二章Zookeeper安装【笔记+代码】

二、Zookeeper安装2.1 本地模式安装部署1）安装前准备：（1）安装jdk（2）上传zookeeper到linux系统下（3）修改tar包权限[hadoop@ikeng software]$ chmod u+x zookeeper-3.4.10.tar.gz（4）解压到指定目录[hadoop@ikeng software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ （5）配置环境变量 [root@i

2020-12-10 15:36:19 200

原创【hadoop生态之ZooKeeper】第一章Zookeeper概述【笔记+代码】

一、Zookeeper概述1.1 概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。1.2 特点1）Zookeeper：一个领导者（leader），多个跟随者（follower）组成的集群。2）Leader负责进行投票的发起和决议，更新系统状态。3）Follower用于接收客户请求并向客户端返回结果，在选举Leader过程中

2020-12-10 15:35:19 336

原创【hadoop权威指南第四版】第七章MR的类型与格式【笔记+代码】

7.1MR类型7.2 输入格式7.2.1输入分片与记录InputFormat类的层次结构每一个map操作只处理一个输入分片，并且一个一个地处理每条记录，也就是一个键值对。在数据库中，一个输入分片可以是一个表的若干行，而一条记录就是这若干行中的一行。public abstract class InputSplit { public abstract long getLength() throws IOException, InterruptedException; p

2020-12-10 14:36:05 710

原创【hadoop权威指南第四版】第六章MR的工作原理【笔记+代码】

6.1 运行MR作业工作原理四大模块：客户端，提交MR作业。jobtracker，协调作业的运行。jobtracker 是一个java应用程序，主类是Jobtracker。tasktracker，运行作业划分后的任务。tasktracker是一个java应用程序，主类是Tasktracker。分布式文件系统（一般为HDFS），用来在其他实体间共享作业文件。6.1.1 提交作业JobClient的 submitJob()方法所实现的作业提交过程如下。1.向 jobtracke

2020-12-10 14:32:56 871

原创【hadoop权威指南第四版】第五章MR应用【笔记+代码】

5.1 API的配置配置文件<?xml version="1.0"?><configuration><property><name>color</name><value>yellow</value><description>Color</description></property><property><name>size</name&

2020-12-10 14:24:18 217

原创【hadoop权威指南第四版】第四章hadoop的IO【笔记+代码】

4.1数据完整性检测损坏数据的常用方法是在第一次进入系统时计算数据的校验和，如果传输后新生成的校验和不完全匹配原始的校验和，那么数据就会被认为是损坏了。注意，校验和可能会错，数据却是正确的，但这种可能性不大，因为校验和远小于数据。一个常用的数据检测代码是CRC-32（cyclic redundancy check，循环冗余检查），计算一个32位的任何大小输入的整数校验和。4.4.1 HDFS的数据完整性客户端写入数据并且将它发送到一个数据节点的管线中，在管线上的最后一个数据节点验证校验和。如果

2020-12-10 14:23:13 302

原创【hadoop权威指南第四版】第三章hadoop分布式文件系统【笔记+代码】

3.1块显示块信息% hdfs fsck / -files -blocks3.5 Java接口3.5.1从hadoop URL读取数据使用java.net.URL 对象来打开一个数据流InputStream in = null;try { in = new URL("hdfs://host/path").openStream(); // process in } finally { IOUtils.closeStream(in);}用URLStr

2020-12-10 14:21:52 357

原创【hadoop权威指南第四版】第二章MR简介【笔记+代码】

2.2使用Unix tool来分析数据#!/usr/bin/env bashfor year in all/*do echo -ne `basename $year .gz`"\t" gunzip -c $year | \ awk '{ temp = substr($0, 88, 5) + 0; q = substr($0, 93, 1); if (temp !=9999 && q ~ /[01459]/ && temp >

2020-12-10 14:17:55 282

原创遗传算法简介

遗传算法简介一、遗传算法（GA）相关流程：种群、适应度、选择函数、优胜劣汰、交叉算子、变异、逐代进化1.1基因的编码方法分为三大类：二进制编码法、浮点编码法、符号编码法。1)二进制编码法1001101，每位数为基因，简单易懂易操作。2)符号编码法｛A,B,C…｝更接近现代生物，ABC代表不同的性质。3)浮点编码法1.2-3.2-5.3-7.2-1.4-9.7每个浮点数为一个...

2020-03-27 13:33:58 5997 1

原创错误(mailed 59 bytes of output but got status 0x004b#012)

linux设置crontab定时任务scrapy crawl mySpider时，出现错误CROND[10166]: (root) MAIL (mailed 59 bytes of output but got status 0x004b#012)原因之一：你执行sh文件的目录没有权限（没有权限执行sh文件）我的sh文件放在/srv/dieaseMap，则到/srv/dieaseMap目录下...

2020-02-23 16:27:12 4230

原创 virtualBox上Ubuntu的网络设置（万能方法）

virtualBox上Ubuntu的网络设置（万能方法）百度的万能方法百度的万能方法百度的万能方法下面是百度教程的补充：设置完桥式网卡后，测试电脑ping连通Ubuntu时可不关闭防火墙（Ubuntu18.04和win10，都不用关闭）...

2020-01-30 09:53:20 531

原创 VMware上centOS的网络设置（万能方法）

VMware上centOS的网络设置（万能方法）百度的万能方法百度的万能方法百度的万能方法和Linux网络设置的生死战，找了N个小时才找到它，下面是百度教程的补充：一、DNS的设置如上图，要注意是DNS1（数字1），也就是1号DNS机器，也可以设置2号，作为备用，刚开始模模糊糊以为是DNSI（英文i）。二、IP地址的设置如上图，百度教程中没有提到IPADDR怎么来，可能也有不少人...

2020-01-29 21:17:05 292

原创廖雪峰webAPP实战——Day1-8总结 \ 剖析Day5

廖雪峰webAPP实战——Day1-8总结过一遍大家可能都卡在day5, 其中的web的框架真是让头疼，day4 还不容易搞明白了orm，没想到day5 还更加难，多了3个py文件，可以说是4个，其中app.py都差不多全改了。。。过一遍我们跟着代码跑一遍，程序开头是在app.py的 init（loop）函数。#app.pyasync def init(loop): await ...

2019-08-06 18:55:23 1741

原创电影小数据分析

一、预处理先给源码git下载：https://github.com/linkunxin/filmRvenuePred或者网盘下载：1、数据初步处理先来看一下数据集样子然后总览一下数据情况（ info() ），在此之前，我们往往将测试集和训练集先合并，统一处理后再分开，就不用处理两遍了。import pandas as pdimport numpy as npimport mat...

2019-07-31 21:02:26 2699

原创对偶问题的转换

对偶问题下面是博主对对偶问题的一些个人理解，博主也是小白一个，有不当之处欢迎评论指教。这个是百度里面的解释，是原问题和对偶问题的转变。例子小明同学拥有一家工厂，他现在有2种获利途径：自己经营，卖出产品获得利润；出租给他人，收取租金获得利润。那么对于途径1，小明同学想要在有限的生产资源约束下，最大化自身的利润,这就是原问题。对于途径2，小明同学作为工厂的拥有者，他所能接受的...

2019-07-21 10:57:32 26959 2

原创 Python map() 函数特殊用法

Python map() 函数Python 内置函数描述map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。语法map() 函数语法：map(function, iterable, …)参数function – 函数iterable – 一个或多个序...

2019-07-19 13:22:48 272 2

原创 Python实现交叉验证

交叉验证trainingSet ：储存训练集索引index ：数据集总数all_data：储存测试集索引trainingSet = list(range(all_data)) #创建存储训练集的索引值的列表testSet = [] #储存测试集的索引值的列表 for i i...

2019-07-11 17:37:29 14691 6

原创 Python的zip函数, 使用zip()划分训练集和测试集

Python的zip函数使用zip() data_class_list = list(zip(data_list, class_list)) #zip压缩合并，将数据与标签对应压缩 random.shuffle(data_class_list) #将data_class_list乱序 index = ...

2019-07-11 17:20:29 1286

原创错误：TypeError: can't multiply sequence by non-int of type 'numpy.float64'

错误：TypeError: can’t multiply sequence by non-int of type ‘numpy.float64’错误代码：该代码是逻辑回归（Logistic Regression）中的改进后的随机梯度上升算法def stocGradAscent1(dataMatrix, classLabels, numIter=150): #dataMatrix=n...

2019-05-03 18:36:49 29482 7

原创 TypeError: expected string or bytes-like object

TypeError: expected string or bytes-like object报错代码：def json(self,strs, key): #print(type(strs)) strs =str(strs) strs = re.sub("'",'"',strs) #print(strs) dict_ = json.loads(strs...

2019-05-01 22:13:39 5948

原创机器学习的相关知识的简介

机器学习的相关知识与介绍*阿尔法狗（ AlphaGo ）是一款围棋人工智能程序，由谷歌（ Google) ! ：旗下 De叩Mind 公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们：的团队开发，其主要工作原理是“深度学习”。KNN 最近邻算法BP 和扎在LP 神经网络算法MLP (Multi-layer Percep位on ）多层神经网络算法也称为 MLP 多层感知器，是...

2019-04-24 23:53:47 620

原创机器学习之数据处理过程小知识+参考网址集合

机器学习过程知识集锦fig,ax = plt.subplots()的理解这个fig,ax = plt.subplots()的意思是，建立一个fig对象，建立一个axis对象。不然要用更复杂的方式来建如下：fig=plt.figure()ax=fig.add_subplot(111)pandas.DataFrame()中的iloc和loc用法iloc，即index locate 用...

2019-04-24 23:34:25 292

转载 Scikit-learn总结: 常用方法

在机器学习和数据挖掘的应用中，scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，可以解决大部分问题。学习使用scikit-learn的过程中，我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验，我做一个总结的笔记。另外，我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1 、估计器（Estimator）估计器，很多时...

2019-04-22 22:35:58 819

转载相似度算法和距离算法

常见的距离算法和相似度（相关系数）计算方法查看原文摘要：1.常见的距离算法　　　　1.1欧几里得距离（Euclidean Distance）以及欧式距离的标准化（Standardized Euclidean distance）　　　　1.2马哈拉诺比斯距离（Mahalanobis Distance）　　　　1.3曼哈顿距离（Manhattan Distance）　　　　1.4切比雪夫...

2019-04-20 17:21:19 977

原创机器学习数据处理框架、步骤

2019-04-19 22:03:34 899

原创为什么要独热编码、优缺点、

一、为什么要独热编码？独热编码（哑变量 dummy variable）是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，...

2019-04-19 21:47:45 22028 1

转载机器学习处理数据为什么把连续性特征离散化、离散值、无监督、有监督用处

一、离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：1、算法需要比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销，提高系统对样本的分类聚类能力和抗噪声能力。2、离散化的特征相对于连续型特征更易理解，...

2019-04-19 20:21:22 4960

空空如也

空空如也