自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (1)
  • 收藏
  • 关注

原创 Anaconda配置pip源

Anaconda默认使用官方镜像源,在使用pip安装 软件包的时候 会默认从国外地址下载,速度太慢为加速下载过程从网络上找到了几个国内的镜像源地址,如下:清华大学阿里云中国科学技术大学豆瓣源腾讯源华为镜像源。...

2022-08-16 21:53:27 3092 1

原创 spark 读取 mysql大表优化

从一个存有 200w+数据量的mysql表中导出数据如果采用默认的spark读取jdbc的方式的话,会创建一个连接,一次性读取200w的数据,会导致java虚拟机崩溃,或者GC超时导致任务失败经一段时间的测试,最终解决了这个问题。方案如下:会生成多个where 子句 进行 并行读取mysql源表的数据 图为spark源码的解释:ps://img-blog.csdnimg.cn/bb7131c408454e3db4ca1f3f135d7f49.png)fetchsize参数是设定一次从表中读

2022-06-19 13:50:49 1880 1

原创 VMWARE配置虚拟机网卡信息备份

在配置centos7的时候死活连接不上网络,网上的资料大多不正确,尝试多次之后发现centos7 版本已经放弃了 netmask 了,只能通过来配置子网掩码也就是说要在文件的配置中将 修改为 完了之后 使用 命令重启network服务在windows下使用cmd 命令去 测试有无反馈在Linux下使用 测试有无反馈以上都测试通过之后就说明网络已经配置完成了...

2022-06-09 00:02:40 325

原创 scala 序列化与反序列化demo

import java.io.{ByteArrayInputStream, ByteArrayOutputStream, ObjectInputStream, ObjectOutputStream}case class stu (name:String,age:Int,sex:String) extends Serializableobject My_Serializable { /** * @param obj 输入的对象 * @tparam O 泛型,(输入对象的类型)

2021-08-11 11:51:39 527

原创 简单使用Kettle将mysql的数据导入hive中去

**使用环境:——hadoop260-cdh5.14.2版本——hive1.1.0-cdh5.14.2版本——mysql 5.6.50**首先去国内的镜像网站下载kettle的安装包:下载完之后解压双击soppn.bat就可以运行了,第一次运行会有点慢,稍等片刻就好了。拖动添加表输入和表输出表输入是从mysql中获取数据(需要新建mysql连接,指定数据库名称)表输出是将数据导出至hive中去需要将mysql的jar包和hive jdbc standalone的jar包复制到相关的lib

2021-01-01 13:02:18 1532

原创 一种简单的方法将scala中Rdd中算子转DataFrame

分为几个大的步骤:1.先将RDD中的所有列转为一个rowval row = rdd.map(x=>Row(x._1,x._2,x._3,x._4))2.通过Struct相关方法创建一个schema//创建一个字符串,用于创建structField//这里的abcd就是后面转成DataFrame后的列名val schemaString = "a,b,c,d"//创建structField//分割字符,一个个塞入StructField中val sf = schemaString.s

2020-11-17 14:25:47 927

原创 pycharm使用pyhive连接hive

导入pyhivefrom pyhive import hiveif __name__ == '__main__': conn =hive.Connection(host="192.168.139.128",port="10000",username="root", database="hivereview",auth="NOSASL") cursor = conn.cursor() sql="select * from client_ext" curso

2020-11-10 18:38:13 1725

原创 Python连接数据库 教程

实现步骤:一、使用mysql.connector1、导入msql 的包2、创建连接对象3、使用cursor方法获取操作游标4、fetchall方法获取数据,for循环进行输出5、最后关闭连接对象import mysql.connector#创建连接对象#参数分别为:ip地址,用户名,密码,库名mydb=mysql.connector.connector( host="192.168.139.128", user="root", passwd="root",

2020-11-01 13:10:00 9116

原创 spark配置log4j

运行spark app时,屏幕上总会刷屏似的输出大量日志信息,详细介绍程序运行过程,但这样有时也不便我们调试应用。只输出警告和程序输出一般就足够我们参考,再详细的内容课题通过web ui更直观的查看。# Set everything to be logged to the consolelog4j.rootCategory=WARN, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.consol

2020-10-22 18:55:22 395

原创 VectorAssembler的稀疏向量转密集向量

在通过VectorAssembler将多列特征值和并后,由于spark存储格式的原因,会将含有很多0值的一行转为稀疏向量sparseVector进行存储。然而在后续计算过程中,我们需要的是密集向量,所以需要将稀疏向量转为密集向量。1.先通过VectorAssembler将需要的列转成向量列2.转为RDD后map操作,将feature列中的元素转为DenseVector...

2020-10-17 16:22:03 1689

原创 分别使用java和scala写双线程交替修改一个值

第一个线程对该数加1,第二个线程对该数进行减一,假设给定的初始值为10的话,第一个线程的结果为11,第二个线程的结果应为10,然后交替输出主要实现思路:第一条线程执行加法后,通过notify方法唤醒另一条线程,然后自身进入wait状态第二条线程被第一条唤醒后,执行减法操作,执行完毕后通过notify方法唤醒第一条线程,然后自身进入wait状态,等待唤醒前提要对当前对象加锁,某一条线程独占后才能实现交替修改java实现代码如下:public class Test2 extends Thread{

2020-10-14 09:02:35 130

原创 Scala写一个日期转换函数

输入一个yyyy-MM-dd hh:mm:ss格式的日期,将其转化为星期数def changeDay(date:String) ={ val arr=Array("星期日","星期一","星期二","星期三","星期四","星期五","星期六") val date1 = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").parse(date) val cal = Calendar.getInstance() cal.se

2020-09-29 16:29:09 648

原创 Scala阶段总结

一、基础及环境配置Scala构建在JVM之上,与java兼容,互通面向对象编程,函数式编程,表达能力强,代码精简安装包(要求jdk环境):https://www.scala-lang.org/download在idea中安装scala环境:在idea的setting搜索Plugins(插件的意思),在插件栏搜索scala安装即可如果在线无法安装的话,可以从idea的官网找到对应版本的scala插件,下载到本地,选择从本地安装即可tips:scala插件的版本需要和idea的版本一致二、概述

2020-09-25 23:02:26 213

原创 使用scala写一个jdbc

准备:先在数据库中创建好库,表,导入测试的数据库名为mydemo,表名为userinfos表有三个字段:userid,username,birthdayscala的操作:1.创建实体类用于接收从数据库中获取的数据case class UserInfos(var userid:Int,var username:String,var birthday:String)2.创建BaseDao连接数据库执行操作object BaseDao{//创建连接对象 def getConnection(

2020-09-16 18:36:53 309

原创 Scala 传值调用和传名调用

传值调用时,参数只在调用时计算一次,后续重复使用计算的结果传名调用时,参数在调用时不会计算,只有真正用到参数的时候才会计算(x:=> Int)object ScalaFunction { var money =10 def count:Int={ money-=1 money } def printByName(x: =>Int): Unit ={ for (i<- 1 to 5){ println(x) } } de

2020-09-14 19:25:37 324

原创 scala函数总结

数组函数大全:方法名:++描述:合并两个序列,若类型不同以左侧类型为主,左侧集合的值在新集合的左侧返回值:左边序列类型方法名:++:描述:合并两个序列,若类型不同则以右边的类型为主,返回值:右边序列的类型方法名:+:描述:在数组前面添加一个元素,在数组的头部添加,冒号要离数组近返回值:数组(类型依据集合中的元素类型而定)方法名:/:描述:对数组中的所有元素从左向右遍历,进行相同的迭代操作,是flodLeft的简写返回值:计算的结果方法名::+描述:在数组后面添加一个元素

2020-09-12 17:02:32 1211

原创 idea创建scala项目

1、scala的安装以及插件配置:安装scala至C盘,在idea中安装scala插件(需要按idea的版本在其官网找到对应的scala对应版本)在idea的configure项选plugns项选择从本地安装,找到刚下载的对应版本的插件,即可在idea左侧看到scala的图标2、创建scala工程:选择maven的quickstart,修改pom配置文件的jdk1.7版本为1.8在project structure选项中选择language level选择8-Lambads在Librarie

2020-09-12 00:08:39 259

原创 Sqoop安装教程

1、准备:sqoop的tar包:sqoop-1.4.6-cdh5.14.2.tar.gz依赖jar包:java-json.jar、 mysql-connector-java-5.1.27-bin.jar2、安装:解压sqoop至指定目录将其重命名为sqoop146将上面的2个依赖jar包导入值sqoop的lib目录下再将hive目录下的2个相关的jar包也到入至lib下cp /opt/bigdata/hadoop/hive110/lib/hive-common-1.1.0-cdh5.14.2

2020-09-05 22:31:27 469

原创 Hbase安装教程

1、准备准备好hbase-1.2.0-cdh5.14.2.tar.gz的包启动hadoop2、安装以及配置将hbase解压至指定目录在conf目录下,打开 hbase-env.shvi hbase-env.sh添加如下两行export JAVA_HOME=此处填jdk的目录export HBASE_MANAGES_ZK=false打开 hbase-site.xmlvi hbase-site.xml添加如下其中: kbcluster 是集群的名称,可以去50070端口下查看hbas

2020-08-31 23:14:34 379

原创 Hive常用函数及实例

一、关系运算:等值比较: =语法:A=B操作类型:所有基本类型描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive>select 1 from test where 1=1;不等值比较: <>语法: A <> B操作类型:所有基本类型描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE举例:hive> select1 from test w

2020-08-29 20:30:35 326

原创 Hive的安装以及配置

1、准备先启动hadoop或hadoop-ha将hive-1.1.0-cdh5.14.2.tar.gz解压至目标目录,并改名为hive110修改hive110目录的权限: chown -R root:root hive110安装mysql准备mysql连接java的驱动包2、配置进入hive的conf目录下我这里是/opt/bigdata/hadoop/hive110/conf新建hive-site.xml文件然后编辑vi hive-site.xml其中xxx.xxx.xxx.xxx是

2020-08-29 10:11:44 624

原创 各大网站镜像源

可设置maven,npm。。。。等等的下载源1、腾讯镜像源:https://mirrors.cloud.tencent.com/2、 华为开源镜像站:https://mirrors.huaweicloud.com/3、阿里巴巴开源镜像站:https://opsx.alibaba.com/4、网易开源镜像站:http://mirrors.163.com/5、中科院大学开源镜像站:http://mirrors.ustc.edu.cn/6、清华大学开源镜像站:https://mirrors

2020-08-19 18:44:25 4997

原创 Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwxrwx---

今天在做Hadoop 分布式实例的时候遇到了这个错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwxrwx—应该是tmp文件夹的权限不够,修改tmp文件夹的权限即可修改一下权限:hdfs dfs -chmod -R 755 /tmp即可...

2020-08-18 09:29:06 818

原创 Hadoop集群搭建教程

1、准备工作:由于hadoop是基于java的,所以需要预先安装jdk,安装jdk的教程可参考这篇:https://blog.csdn.net/qq_34566673/article/details/107797472准备好着两个压缩包,通过xftp传至虚拟机中2、安装:通过tar命令将hadoop主文件解压至指定目录tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/bigdata/hadoop/将解压后的文件夹重命名为hadoop260将na

2020-08-17 22:59:23 158

原创 Elasticsearch分词器插件的安装

分词器下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases安装:通过xftp将下载好的分词器包elasticsearch-analysis-ik-6.2.2.zip传至虚拟机中在elasticsearch的plugins目录下新建ik文件夹通过unzip命令将分词器解压至ik文件夹中如果unzip命令不可用的话可用yum search unzip查找unzip的安装包再通过yum install unzip.x8

2020-08-15 21:04:52 296

原创 Linux下设置免密登录

1、查看当前主机别名hostname2、设置别名jwtmaster为你需要设置的主机别名hostnamectl set-hostname jwtmaster3、配置hosts文件vi /etc/hosts将需要配置免密登录的主机ip以及别名添加至文档的末尾左边为ip地址右边为主机别名,二者一一对应4、生成ssh秘钥进入当前用户目录cd ~如果是root用户的话会进入 /root目录,可通过pwd命令查看当前目录生成秘钥ssh-keygen -t rsa -P “”执行此步命令

2020-08-15 20:25:54 1490

原创 一键配置jkd以及tomcat的shell脚本

代码如下:#!/bin/bashINSTALL是放安装包的路径INSTALL=/opt/install/JDK安装包的文件名JDK=jdk-8u111-linux-x64.tar.gzTOMCAT安装包的文件名TOMCAT=apache-tomcat-8.5.57.tar.gzBIGDATA是安装的目标路径BIGDATA=/opt/bigdata/CMD用于执行命令CMD=''show用来展示命令执行的结果show(){msg=''for p in $*domsg=$msg

2020-08-11 19:41:57 185

原创 Linux 下 Elasticsearch的安装和配置

第一步:检查jdk是否安装好输入java -version 以查看jdk版本第二步:下载并解压下载elasticsearch的tar包地址:https://www.elastic.co/cn/downloads/elasticsearch下载到本地硬盘后,通过xftp上传至linux下tar -zxvf执行解压命令tar -zxvf elasticsearch-6.2.2.tar.gz -C /opt/install/其中elasticsearch-6.2.2.tar.gz是elastic

2020-08-08 15:14:00 2297

原创 Centos安装JDK以及Tomcat

通过xftp将linux版本的jdk以及tomcat传到虚拟机中一、JDK安装解压 tar -zxvf jdk-8u111-linux-x64.tar.gz -C /opt/gibdata/java/配置环境变量vi /etc/profile在尾部插入如下三行代码export JAVAHOME=/opt/bigdata/java/jdk180export PATH=$JAVAHOME/bin:$PATHexport CLASSPATH=.:$JAVAHOME/lib/dt.jar:$JA

2020-08-04 20:16:53 352

原创 idea 无法快速联想 Jar 包里的类

idea在通常情况下打一个S 会出现以S开头的所有联想词但是最近莫名其妙,写代码的时候无法快速联想导入的jar包中的类以及方法,必须要将类名及方法名写全才能出来。可以通过清除缓存的方式解决无法快速联想...

2020-08-03 19:56:16 1336

原创 js中长整型(Long)转为时间类型

数据库中存储的日期格式有date型(yyyy-MM-dd)存储的是年月日类型的日期,datetime型(yyy-MM-dd HH:mm:ss sss)精确到毫秒的日期类型。java从数据库中获取的日期为java.util.Date类型,在java程序将数据传向前端页面时,会默认将日期数据转为Long型的毫秒数传过去。要想在前端页面展示出yyyy-MM-dd型,则需要将传过来的长整数转为日期longTypeDate是传进去的长整数function dateFormat(longTypeDate){

2020-07-29 21:56:59 2908

原创 idea出现:”not find catalina.jar“解决方法

tomcat安装在C盘无法输入log日志文件,遂卸载重新安装在D盘,结果重新启动项目时出现:not find catalina.jar提示,项目无法启动。解决方法:在File -> Setting -> Build,Execution,Deployment -> Application Servers将Tomcat Home文件夹改为新安装的目录,点击apply即可...

2020-07-29 11:02:59 2073

原创 前后端分离

1、什么是前后端分离在搞清楚前后端分离的概念之前,先来弄清楚什么是非前后端分离。在传统的做法里面,比如servlet,tomcat都会在后台运行java代码,然后再后台生成全部的html代码,接着通过http协议把html代码传输到浏览器。这样做的问题是:a、在后台运行的时候,如果需要连接很多数据库才能把需要的数据查出来,那么这个准备html的过程就会比较缓慢,同时生成的html也相对较大,用户可能感受比较慢。b、前后端开发的联调耦合度也很高,有时候必须相互等待,这样双发的开发效率都降低了。那么

2020-07-26 21:08:36 214

原创 Jstl无法加载怎么办

复制c.tld文件至指定目录,在pom.xml配置文件中添加jsp-config项将url和路径分别填好即可

2020-07-20 18:52:01 348

原创 Idea通过maven打jar包

第一步打开需要封装的工程点击右侧的Maven projects,然后右键install运行在控制台会出现编译好的jar包路径(会存放在maven的本地仓库中)第二步打开需要导入该jar包的maven工程打开pom.xml文件,在dependencies中新建一个dependency然后找到本地仓库中的编译好的jar包,打开pom配置文件将groupId,artifactId,version这三栏信息复制到目标工程的pom.xml中,即可导入jar包...

2020-07-19 18:19:09 497

原创 IDEA配置javaweb

1、先下载安装好tomcat双击安装直接点下一步此处需要选择本机的jre目录,如果不是安装在C盘的haul需要手动选择jre目录(需要选择JavaSE7.0以上的版本)这一步是选择安装目录,选择自己喜欢的目录即可完成之后继续下一步2、打开IDEA新建一个工程,选择maven选择quickstart,点next输入工作组和工程名右下角选择Enable Auto-Import在pom.xml文件中,将两个1.7改为1.8在depencies中添加 <!--

2020-07-13 23:11:10 1551

原创 Mysql中 查询一个字段有多个值的写法

在有group by的查询语句中,select指定的字段要么就包含在group by语句的后面,作为分组的依据,要么就包含在聚合函数中。group_concat(EE.last_name order by EE.last_name separator ',')1处表示需要连接在一起的值的字段名order by :在此字段中的排序方式,默认为正序,DESC为倒序separator :分隔符,值之间用什么符号相连接同一个日期的人名,组成了一个整体...

2020-07-12 23:11:34 5752 1

原创 MySql常用函数

MySql有很多函数,以下列出了常用的函数的用法数字函数函数名描述ABS(x)返回 x 的绝对值AVG(expression)返回一个表达式的平均值,expression 是一个字段CEIL(x)返回大于或等于 x 的最小整数CEILING(x)返回大于或等于 x 的最小整数ABS(x)返回 x 的绝对值COUNT(expression)返回查询的记录总数,expression 参数是一个字段或者 * 号FLOOR(x)返回小于或等于

2020-07-12 22:12:42 117

原创 Centos7安装msql教程

1、清除默认数据库执行此命令查看默认数据库rpm -qa|grep mariadb如果有默认的数据库就执行以下命令yum [-y] remove xxx将默认的数据库删除删除完成之后,再次执行一下查询命令,查看是否删除干净删除干净了之后的界面应该是查询不到任何结果2、安装mysql获取安装包有两种方法,第一种:在线获取:需要保持网络连通ping一下百度的 网址,如果出现了一下界面,就证明已经连通了网络//命令如下ping www.baidu.com确认网络通畅后,就可

2020-07-05 14:18:40 181

原创 JS操作DOM-基础知识

一、什么是DOMDOM 是Document Object Model( 文档对象模型 )的缩写。DOM是把html里面的各种数据当作对象进行操作的一种思路。比如一个超链,作为一个DOM对象,就可以使其隐藏,修改其href指向的地址。DOM把所有的html都转换为节点整个文档 是一个节点元素 是节点元素属性 是节点元素内容 是节点注释 也是节点二、获取节点关键字简介document.getElementById通过id获取元素节点getElementsByTa

2020-07-02 22:35:09 252

js操作dom.xmind

自己写的js操作DOM的思维导图,主要有如下内容:1、什么是DOM,对于DOM的介绍。2、获取DOM节点,通过id / 标签名 / 表单元素获取元素节点,获取属性节点,获取内容节点

2020-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除