自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hive安装

3.上传JDBC MySQL驱动到hive软件的lib目录下面。4.配置hive-env.sh(在hive的conf目录中)1.配置hive环境变量,前面已经配置过来。5.配置hive-site.xml。初始化hive元数据库。2.mysql安装。先启动hadopp。

2022-12-08 15:51:24 360 1

原创 CentOS MySQL安装

2.通过xftp上传MySQL和Hive压缩包。检查mysql组和用户是否存在,如果没有则创建。更改软件安装目录的权限,分给mysql用户。5.配置mysql、hive环境变量。1.查询是否已经存在mariadb。将mysql配置复制到系统配置文件。创建data目录存储数据库文件。把启动脚本放到开机初始化目录。6.修改mysql配置文件。添加mysql默认配置文件。使用临时密码登录mysql。初始化完成之后查看日志。启动mysql服务端。4.重命名软件目录。修改mysql密码。

2022-12-08 15:49:56 823

原创 HDFS shell及Java API操作

MapReduce跑不通参考这个解决https://blog.csdn.net/whs0329/article/details/121878162。拒绝当前用户访问的话,需要设置环境变量将用户替换为root用户。记得设置用户root环境变量,exit 0表示词频统计运行成功。设置环境变量HADOOP_USER_NAME=root。上传本地1.txt文件到hdfs上面。项目pom.xml文件。1.创建要执行统计的目录。Java API代码。

2022-12-08 15:45:39 596

原创 配置Hadoop伪分布式

1.上传并解压JDK、hadoop安装包。2.配置JDK、hadoop环境变量。3.修改配置文件。3.1进入hadoop配置文件目录3.2修改hadoop-env.sh里面的JDK路径。3.3修改core-site.xml文件。core-site.xml。主机名修改为免密登录时的主机名,不然免密登录不生效。3.4修改hdfs-site.xml文件。3.5格式化名称节点。参考文献伪分布式参考博客 https://blog.csdn.net/JunLeon/article/details/120

2022-12-07 14:53:54 1274

原创 Centos设置ssh免密登录

1.本机生成公钥、私钥和验证文件一路回车默认配置。进入主目录下的隐藏目录(.ssh目录)。查看公钥和私钥。2.修改hosts文件。本地hosts文件主机名与IP地址的映射优先级高于DNS服务器。3.分发公钥给互联网上要登录当前主机的电脑。第一步输入yes,第二步输入root的密码。4.测试免密登录是否成功。

2022-12-07 14:50:24 1347

原创 SSH工具连接虚拟机

xshell、xftp下载地址。学习版本只需要在网页中输入用户名和邮箱,就会有下载地址发送到你的邮箱。1.以xshell为例。2.测试物理机是否能够连通(ping命令)虚拟机的IP地址。找到虚拟机中系统的IP地址。测试是否能ping得通虚拟机里面系统的IP地址。3.配置连接名称及要连接的IP地址。4.设置登录用户名及密码。5.登录成功。Lp-1670209751605)]5.登录成功。

2022-12-05 11:16:20 1475

原创 centos安装

1.打开VM软件2.文件->新建虚拟机3.(典型)->稍后安装操作系统->选择系统版本4.更改虚拟机安装位置。5.更改虚拟机磁盘大小。6.自定义硬件内存、cpu大小。7.使用镜像并启动虚拟机。8.选择安装。9.选择语言。10.选择自动分区。11.设置虚拟网络编辑器。设置虚拟机静态ip地址时一般不与网关地址冲突。12.设置静态IP地址。设置好后,如下图。13.设置root密码及普通用户。14.重启登录系统。用户名root,密码:123456(自定义)。密码不显示。如果静态IP地址不生效,先重置虚拟机网络,再

2022-12-05 11:07:11 427

原创 Azkanban安装

1.编译azkaban源码通过git拉取代码git clone https://github.com/azkaban/azkaban.git进入git拉取的源代码根目录,编译源码gradlew build installDist编译过程中报错,下载不了node.js,azkaban-web-server目录下的build.gradle文件,默认不下载 node.js,使用系统已经安装的node.js。2.上传tar包到集群在windows下编译了通过xshell(或xftp)上传到ce

2021-09-12 20:13:36 177

原创 HDFS高可用

HDFS高可用基本概念产生背景:NameNode在实际运行时存在单点故障(NameNode宕机整个集群就挂了)。设计思想:使用多一个NameNode(Standby NameNode)对正在活跃服务的NameNode(Active NameNode)进行实时备份,即将日志分别写入EditLog和Journal Node,原来活跃的NameNode即使挂掉了就使用备份节点。主要组成及作用主要组成:NameNode(两个)、ZKFailoverController、Quorum Journal Nod

2021-08-21 10:50:33 111

原创 YARN--另一种资源调度器

YARN组成container对计算资源的抽象(一个容器中包括内存、磁盘、cpu等)ResourceMananger主节点负责全部应用资源管理和分配。调度器:根据应用程序按不同策略(FIFO)分配container应用程序管理器(Application Manager):对全部应用进行管理,包括应用提交,与调度器协商以启动Application Master,监控Application Master运行状况并在出错时重启它NodeManager作用:将节点的资源信息向Re

2021-05-22 20:55:01 121

原创 HDFS

HDFS集群搭建ssh免密登录ssh创建rsa对称加密的公钥和私钥,将公钥给其他节点(写入其他节点的.ssh/authorized_keys中),其他节点就可以登录这个主机了rsa非对称加密,签名(私钥签名后的消息和未加密消息一起发送,接收方用公钥解密签名消息验证是否被篡改)使用配置文件最好一样,不一样可能不知道会出啥问题。core-site.xml配置hdfs的url???hadoop-env.xml 配置JDKyarn-env.xml 配置JDKhdfs-site.xml配置nam

2021-05-22 14:13:05 212

原创 DDL与DML( 数据定义语言)

建库表建库show databases;creat database dbName;drop database 逻辑库名称;建表create table tableName( 字段名1 类型(decimal以字符串形式存储小数) [约束条件] [comment '字段描述'], 字段名2 类型(BigInt) [约束条件] [comment '字段描述'] )[comment ''];查看表结构show tables;#查看当前逻辑空间中的所有数据表show create tab

2021-03-13 23:01:54 181

原创 讲师接口

讲师接口开发使用代码生成器生成代码结构。public class CodeGenerator { @Test public void run() { // 1、创建代码生成器 AutoGenerator mpg = new AutoGenerator(); // 2、全局配置 GlobalConfig gc = new GlobalConfig(); String projectPath = Syste

2020-12-02 16:39:44 230

原创 MyBatis-Plus初解

MyBatis-Plus使用步骤创建实体类创建mapper接口xml配置//BaseMapper会自动将mapper与实体类关联,需要在配置类中使用@MapperScan扫描@Repository //加Repository会交给IoC管理public interface UserMapper extends BaseMapper<User> {}在配置类上开启@MapperScan扫描,指定mapper接口的位置使用mapper接口操作数据库@Spring

2020-11-29 21:58:53 211

原创 MyBatis多对一与一对多、自连接查询

多对一查询例如根据学生查班级,使用<association>标签。关联方式查询:通过多表关联的SQL语法进行查询, 需要使用join, on, …来实现查询。执行一条SQL语句就可以将所有需要的数据全部查询到。我们需要做的就是将查到的数据进行映射即可。实体类的属性名与表中的字段名一样时,默认不会自动映射,需要设置autoMapping=“true”,即可自动映射。通过association 映射实体类中包括的其他实体类。缺点:SQL语句复杂。<mapper namespace="mu

2020-11-22 16:35:07 789 1

原创 MyBatis动态SQL

SQL语句不固定,按条件生成对应的SQL语句。<if>标签用于条件判断,test属性表示判断结果,要求是一个boolean。test中的参数不用#{},直接用参数名或map的key。<where>标签用于维护where子句,通常配合一起使用。如果不使用<where>,直接使用where,if条件都不成立时,where还是会在SQL语句中,会出错。如下功能:当没有条件时, 不会创建WHERE关键字;当有条件时, 会自动生成WHERE关键字;会自动去掉第一个条

2020-11-20 18:30:53 97

原创 MyBatis接口绑定

自带的selectList等api的方法名和传参无法自定义。接口绑定可以解决方法调用不灵活,参数传递不灵活的问题。需要提供与接口匹配的映射配置文件。遵循特定规范必要规范:映射配置文件中, mapper的namespace属性必须和接口的全限定路径一致<mapper namespace="InterfaceBinding.TestInterfaceBinding"> <select id="selAll" resultType="User"> sel

2020-11-20 15:58:13 125

原创 MyBatis增删改与MD5加密实现

ctrl+shift+N 查找文件增删改需要进行事务管理。增@Testpublic void testAdd(){ User user=new User("wangwu","123","王五",18,new Date()); SqlSession sqlSession = MyBatisUtil.getSqlSession(); try { sqlSession.insert("insertUser",user); sqlSession.com

2020-11-20 10:38:34 791

原创 MyBatis带参查询

#{}占位符类似于jdbc中通过PreparedStatement进行操作的方式, 会将sql语句中需要参数的位置使用?进行占位,后续由传进来的参数进行参数的绑定。?处绑定的都是值,不能指定表的列,转换成sql时表名会被当成字符串,会出错,防止sql注入。select username,age,password from 'tb_user'简单类型参数简单类型指的是: 基本数据类型, 包装类型, String, java.sql.*。当参数是简单类型时, MyBatis会忽略SQL语句中参数的个数

2020-11-19 11:36:48 1001 1

原创 MyBatis三种基本查询方法与log4j

selectList查询不到时,返回空list。可以通过list.size()判断是否查询到。List<User> list = sqlSession.selectList("selAll");源码@Overridepublic <E> List<E> selectList(String statement, Object parameter, RowBounds rowBounds) { try { MappedStatement ms = co

2020-11-18 16:28:27 144

原创 MyBatis基础

配置文件一般放在src目录下,会直接编译并存放在类路径下(classpath)。

2020-11-17 14:57:02 91

原创 原生AJAX

Ajax请求发出去,客户端不需要等待,继续其他页面操作即可;服务端返回的也不是整个页面,是相关的数据,到达客户端后自动的局部刷新。好处:用户体验好,网络传输量小。特点:异步访问,局部加载。原生Ajax步骤创建XMLHTTPRequest对象与服务前连接回调函数发送Ajax请求let xml;function checkName(){ document.getElementById("nameTips").innerHTML="" let name=document.g

2020-11-14 21:29:06 148

原创 Java Iterator与ListIterator原理

IteratorIterator专门为遍历集合而生,集合并没有提供专门的遍历的方法Iterator实现迭代器设计模式(设计模式23个:工厂模式、单例模式、迭代器模式)iterator.remove() 删除当前遍历到的值foreach不能删除会出现ConcurrentModificationException哪些集合可以使用Iterator遍历Collection:可以List:可以Set:可以Map:不可以,map并没有实现Iterator接口提供iterator()方法的就可以

2020-11-14 17:21:35 191

原创 HashMap部分源码解析

默认初始容量首次添加且调用是不指定内存大小的构造方法,才会使用默认初始容量开辟内存空间// hashtable数组默认大小16个桶,必须是2的幂static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;将hashcode映射到桶中,数组大小(桶的个数)必须是2的幂,因为会将hashcode与数组大小-1进行按位运算,2的幂-1得到的数的二进制表示为全1,没有0的影响,使每个hashcode的运算就是其本身的二进制(即数组的下标),桶中数据分布

2020-11-13 15:44:14 70

原创 Java map容器

HashMapHashMap:底层结构是哈希表。查询快、 添加快,无序key:无序,唯一 HashSetvalue:无序,不唯一 CollectionLinkedHashMapLinkedHashMap:底层结构是哈希表+链表。查询快、添加快,有序key:有序(添加顺序),唯一 LinkedHashSetvalue:无序,不唯一 CollectionTreeMapTreeMap:底层结构是红黑树,速度介于哈希表和线性表之间,有序key:有序(自然顺序)唯一TreeSetvalue:

2020-11-12 20:02:32 365

原创 哈希表原理初解(hashtable)

哈希表结构特点ctrl+alt+左右箭头返回鼠标上次下次焦点hashtable也叫散列表 特点:快很快神奇的快结构:结构有多种最流行、最容易理解:顺序表+链表主结构:顺序表每个顺序表的节点在单独引出一个链表添加与查找数据计算哈希码(调用hashCode(),结果是一个int值 ,整数的哈希码取自身即可)计算在哈希表中的存储位置y=k(x)=x%11x:哈希码k(x) :哈希函数y :在哈希表中的存储位置,y值一样就会出现hash冲突(无法避免)。存入哈希表情况1 : 一

2020-11-12 16:30:25 144

原创 数据可视化 循环饼图

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import to_datetime#import datetime%matplotlib notebookplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.r...

2020-11-12 08:43:57 271 1

原创 Java set容器

set特点:无序,唯一HashSet采用Hashtable哈希表存储结构(神奇的结构)优点:添加速度快查询速度快删除速度快缺点:无序LinkedHashSet采用哈希表存储结构,同时使用链表维护次序有序(添加顺序)TreeSet采用二叉树(红黑树)的存储结构优点:有序(大小顺序)查询速度比List快(按照内容查询)缺点:查询速度没有HashSet快二叉排序树:左子树<根<右子树二叉平衡树:首先是排序树,左右子树高度差不超过1set的遍历for-ea

2020-11-11 20:21:34 426

原创 Java ArrayList与LinkedList基础与底层部分源码

ArrayList数据结构元素的数据类型相同,所占内存大小一样,由于是顺序存储的,可以直接计算每个元素所在的内存地址,根据索引查找时速度快。在内存中分配连续的空间,实现了长度可变的数组优点:遍历元素和随机访问元素的效率比较高缺点:添加和删除需大量移动元素效率低(需要覆盖前移),按照内容查询效率低ArrayList特点:不唯一、 有顺序(索引的顺序)。集合中只能放对象,不能放基本数据类型,jdk1.5之后会自动装箱。ArrayList常用方法添加index为可选参数,list下标lis

2020-11-10 21:14:29 111

原创 idea全局配置maven

下载解压maven3.6.3下载链接在idea中找到File–>New Projects Settings–>Settings for New Projects然后找到maven配置maven的主文件夹即解压maven压缩包后的位置配置setting file找到解压文件中的配置下的setting.xml配置仓库,即jar包的下载位置,需要自己创建并指定位置如下点击ok完成...

2020-11-10 18:26:19 297

原创 java List容器原理

集合与数组对比数组缺点数组的长度必须在初始时指定,固定不可动态更改。数组存储是连续的,添加删除效率低。删除后还需要后面的数据向前移动进行覆盖。无法保存映射。key-value,下标只是数字,无实际含义,key则可以是字符串。数组不想集合提过对象操作方法。集合Collection接口存储无序、不唯一的对象。List接口存储有序,不唯一的对象。Set接口存储无序,唯一的对象。Map接口存储key唯一无序,value不唯一。ListArrayList元素的数据类型相同,所占内存大

2020-11-10 17:38:10 105

原创 String、StringBuffer和StringBuilder对比

String不可变性s1只是String对象的引用,而“hello”才是String对象,会先在常量池创建“hello”对象,s1就会指向String对象。执行s1=s1+"world"则会重新在常量池开辟新内存创建“hello world”对象,s1重新指向“hello world”。new(“”)时的对象则是堆中开辟内存。String s1="hello";s1=s1+"world";String一旦创建不能修改,由于它是final修饰的类,通过char[]引用类型对值进行了封装,value不

2020-11-10 16:34:32 103

原创 git初解

分布式版本控制集中式(SVN)需要从服务器获取完整版本,修改后还要提交给服务器。服务器崩溃,以前的历史信息会丢失,分布式本地有保存则不会丢失。分布式每个用户都有完整版本,可以在本地保存修改,服务器只是交换用户的修改数据。(低版本Linux的可能不是git,还没改名考虑git-core)配置全局用户–global 所有的Git仓库都会使用这个配置git config --global user.name "your name"git config --global user.email "test

2020-11-08 14:28:13 168 1

原创 员工离职预测 逻辑回归

员工离职预测 逻辑回归import numpy as npimport pandas as pdfrom sklearn.preprocessing import LabelEncoder#中文编码为数字import seaborn as sns#热力图import matplotlib.pyplot as pltfrom sklearn.model_selection import ...

2019-12-11 19:56:16 1645

原创 泰坦尼克号幸存者逻辑回归预测

泰坦尼克号幸存者预测import numpy as npimport pandas as pd数据读取#最后一行是换行符不取train=pd.read_csv(r'./mytrain.csv').iloc[:,:-1]test=pd.read_csv(r'./mytest.csv').iloc[:,:-1]#查看数据train.head() ...

2019-11-30 19:29:58 1724

原创 numpy基础

numpy操作操作环境jupyterimport numpy as np列表转矩阵array=np.array([[1,2,3], [2,3,4]])numpy矩阵属性操作print(array)获取维度array.ndim#获取形状行数列数array.shape元素个数array.size创建一维数组并指定类型a=np.ar...

2019-11-22 20:43:35 615

翻译 Hadoop伪分布式搭建

实验环境已经部署好的 Hadoop 单机模式环境实验步骤一、配置无密登录$ ssh-keygen -t rsa -P ’’ -f ~/.ssh/id_rsa$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys$ chmod 0600 ~/.ssh/authorized_keys二、修改配置文件1、切换到/usr/loc...

2019-11-12 21:28:26 150

原创 python实现ZooKeeper分布式队列

Zookeeper数据模型基本概念:结点和结构zookeeper的数据模型与Linux的文件系统很相似,都是采用树形结构。每一个Linux中的目录对应数据模型的一个结点,结点还是用目录的形式进行表示。如下图/testQueue就是一个结点,既可以存储数据也可以挂载其他节点。结点类型顺序结点:在创建父节点时可以指定参数让子节点是有按顺序的。持久结点:结点一旦创建就会一直在zookeepe...

2019-11-11 21:22:18 204

翻译 Hadoop单机模式环境搭建

实验原理安装Java环境和搭建Hadoop单机模式环境实验环境VMware® Workstation 15 Pro、Ubuntu 16.04系统实验步骤启动Linux系统打开VMware,启动虚拟机,输入系统密码。修改主机名。(1)在桌面右键,打开终端。(2)编辑文件$ sudo vim /etc/hostname按提示输入密码在文件中输入主机名,保存退出。(3)重启系统。...

2019-11-10 21:44:14 335

原创 Pandas简单操作

pandas读取csv文件运行环境jupyterimport pandas as pdtask1=pd.read_csv(r'./附件1.csv',engine='python')task1read()基本参数文件路径抽取数据如果数据存在索引,可以通过索引抽取其中一列或者一行task1['地点']如果需要抽取列中特定的属性,可以在抽取时指定属性为条件。可以直接直接抽取一个属...

2019-11-10 21:04:32 195

azkaban3.91编译后压缩包.tar.zip

azkaban3.91编译后压缩包.tar.zip

2021-09-12

训练集与测试集数据.zip

(1)Age:员工年龄 (2)Attrition:员工是否已经离职,1表示已经离职,2表示未离职,这是目标预测值; (3)BusinessTravel:商务差旅频率,Non-Travel表示不出差,Travel_Rarely表示不经常出差,Travel_Frequently表示经常出差; (4)Department:员工所在部门,Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部; (5)DistanceFromHome:公司跟家庭住址的距离,从1到29,1表示最近,29表示最远; (6)Education:员工的教育程度,从1到5,5表示教育程度最高; (7)EducationField:员工所学习的专业领域,Life Sciences表示生命科学,Medical表示医疗,Marketing表示市场营销,Technical Degree表示技术学位,Human Resources表示人力资源,Other表示其他; (8)EmployeeNumber:员工号码; (9)EnvironmentSatisfaction:员工对于工作环境的满意程度,从1到4,1的满意程度最低,4的满意程度最高; (10)Gender:员工性别,Male表示男性,Female表示女性; (11)JobInvolvement:员工工作投入度,从1到4,1为投入度最低,4为投入度最高; (12)JobLevel:职业级别,从1到5,1为最低级别,5为最高级别; (13)JobRole:工作角色:Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician实验室技术员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是经理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源; (14)JobSatisfaction:工作满意度,从1到4,1代表满意程度最低,4代表满意程度最高; (15)MaritalStatus:员工婚姻状况,Single代表单身,Married代表已婚,Divorced代表离婚; (16)MonthlyIncome:员工月收入,范围在1009到19999之间; (17)NumCompaniesWorked:员工曾经工作过的公司数; (18)Over18:年龄是否超过18岁; (19)OverTime:是否加班,Yes表示加班,No表示不加班; (20)PercentSalaryHike:工资提高的百分比; (21)PerformanceRating:绩效评估; (22)RelationshipSatisfaction:关系满意度,从1到4,1表示满意度最低,4表示满意度最高; (23)StandardHours:标准工时; (24)StockOptionLevel:股票期权水平; (25)TotalWorkingYears:总工龄; (26)TrainingTimesLastYear:上一年的培训时长,从0到6,0表示没有培训,6表示培训时间最长; (27)WorkLifeBalance:工作与生活平衡程度,从1到4,1表示平衡程度最低,4表示平衡程度最高; (28)YearsAtCompany:在目前公司工作年数; (29)YearsInCurrentRole:在目前工作职责的工作年数 (30)YearsSinceLastPromotion:距离上次升职时长 (31)YearsWithCurrManager:跟目前的管理者共事年数;

2019-12-11

训练与测试数据.zip

泰坦尼克号乘客训练与测试数据。训练集中age、Cabin、Embarked列有缺失这里直接删除Age列为NAN的行由于test数据中有些列缺失我们可以用线性回归填充需要将Age作为标签而不作为特征,由于Cabin这列缺失太多直接删除这一列,Embarked这缺失比较少用众数填充, PassengerId、Name、Ticket也不用考虑。

2019-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除