是菜鸟啊-CSDN博客

原创 Anaconda配置pip源

Anaconda默认使用官方镜像源，在使用pip安装软件包的时候会默认从国外地址下载，速度太慢为加速下载过程从网络上找到了几个国内的镜像源地址，如下：清华大学阿里云中国科学技术大学豆瓣源腾讯源华为镜像源。...

2022-08-16 21:53:27 3269

从一个存有 200w+数据量的mysql表中导出数据如果采用默认的spark读取jdbc的方式的话，会创建一个连接，一次性读取200w的数据，会导致java虚拟机崩溃，或者GC超时导致任务失败经一段时间的测试，最终解决了这个问题。方案如下：会生成多个where 子句进行并行读取mysql源表的数据图为spark源码的解释：ps://img-blog.csdnimg.cn/bb7131c408454e3db4ca1f3f135d7f49.png)fetchsize参数是设定一次从表中读

2022-06-19 13:50:49 2049 1

原创 VMWARE配置虚拟机网卡信息备份

在配置centos7的时候死活连接不上网络，网上的资料大多不正确，尝试多次之后发现centos7 版本已经放弃了 netmask 了，只能通过来配置子网掩码也就是说要在文件的配置中将修改为完了之后使用命令重启network服务在windows下使用cmd 命令去测试有无反馈在Linux下使用测试有无反馈以上都测试通过之后就说明网络已经配置完成了...

2022-06-09 00:02:40 375

原创 scala 序列化与反序列化demo

import java.io.{ByteArrayInputStream, ByteArrayOutputStream, ObjectInputStream, ObjectOutputStream}case class stu (name:String,age:Int,sex:String) extends Serializableobject My_Serializable { /** * @param obj 输入的对象 * @tparam O 泛型，(输入对象的类型)

2021-08-11 11:51:39 581

原创简单使用Kettle将mysql的数据导入hive中去

**使用环境：——hadoop260-cdh5.14.2版本——hive1.1.0-cdh5.14.2版本——mysql 5.6.50**首先去国内的镜像网站下载kettle的安装包：下载完之后解压双击soppn.bat就可以运行了，第一次运行会有点慢，稍等片刻就好了。拖动添加表输入和表输出表输入是从mysql中获取数据（需要新建mysql连接，指定数据库名称）表输出是将数据导出至hive中去需要将mysql的jar包和hive jdbc standalone的jar包复制到相关的lib

2021-01-01 13:02:18 1645

原创一种简单的方法将scala中Rdd中算子转DataFrame

分为几个大的步骤：1.先将RDD中的所有列转为一个rowval row = rdd.map(x=>Row(x._1,x._2,x._3,x._4))2.通过Struct相关方法创建一个schema//创建一个字符串，用于创建structField//这里的abcd就是后面转成DataFrame后的列名val schemaString = "a,b,c,d"//创建structField//分割字符，一个个塞入StructField中val sf = schemaString.s

2020-11-17 14:25:47 970

原创 pycharm使用pyhive连接hive

导入pyhivefrom pyhive import hiveif __name__ == '__main__': conn =hive.Connection(host="192.168.139.128",port="10000",username="root", database="hivereview",auth="NOSASL") cursor = conn.cursor() sql="select * from client_ext" curso

2020-11-10 18:38:13 1840

原创 Python连接数据库教程

实现步骤：一、使用mysql.connector1、导入msql 的包2、创建连接对象3、使用cursor方法获取操作游标4、fetchall方法获取数据，for循环进行输出5、最后关闭连接对象import mysql.connector#创建连接对象#参数分别为：ip地址，用户名，密码，库名mydb=mysql.connector.connector( host="192.168.139.128", user="root", passwd="root",

2020-11-01 13:10:00 9324

原创 spark配置log4j

运行spark app时，屏幕上总会刷屏似的输出大量日志信息，详细介绍程序运行过程，但这样有时也不便我们调试应用。只输出警告和程序输出一般就足够我们参考，再详细的内容课题通过web ui更直观的查看。# Set everything to be logged to the consolelog4j.rootCategory=WARN, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.consol

2020-10-22 18:55:22 444

原创 VectorAssembler的稀疏向量转密集向量

在通过VectorAssembler将多列特征值和并后，由于spark存储格式的原因，会将含有很多0值的一行转为稀疏向量sparseVector进行存储。然而在后续计算过程中，我们需要的是密集向量，所以需要将稀疏向量转为密集向量。1.先通过VectorAssembler将需要的列转成向量列2.转为RDD后map操作，将feature列中的元素转为DenseVector...

2020-10-17 16:22:03 1752

原创分别使用java和scala写双线程交替修改一个值

第一个线程对该数加1，第二个线程对该数进行减一，假设给定的初始值为10的话，第一个线程的结果为11，第二个线程的结果应为10，然后交替输出主要实现思路：第一条线程执行加法后，通过notify方法唤醒另一条线程，然后自身进入wait状态第二条线程被第一条唤醒后，执行减法操作，执行完毕后通过notify方法唤醒第一条线程，然后自身进入wait状态，等待唤醒前提要对当前对象加锁，某一条线程独占后才能实现交替修改java实现代码如下：public class Test2 extends Thread{

2020-10-14 09:02:35 158

原创 Scala写一个日期转换函数

输入一个yyyy-MM-dd hh:mm:ss格式的日期，将其转化为星期数def changeDay(date:String) ={ val arr=Array("星期日","星期一","星期二","星期三","星期四","星期五","星期六") val date1 = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").parse(date) val cal = Calendar.getInstance() cal.se

2020-09-29 16:29:09 694

原创 Scala阶段总结

一、基础及环境配置Scala构建在JVM之上，与java兼容，互通面向对象编程，函数式编程，表达能力强，代码精简安装包（要求jdk环境）：https://www.scala-lang.org/download在idea中安装scala环境：在idea的setting搜索Plugins（插件的意思），在插件栏搜索scala安装即可如果在线无法安装的话，可以从idea的官网找到对应版本的scala插件，下载到本地，选择从本地安装即可tips：scala插件的版本需要和idea的版本一致二、概述

2020-09-25 23:02:26 258

原创使用scala写一个jdbc

准备：先在数据库中创建好库，表，导入测试的数据库名为mydemo，表名为userinfos表有三个字段：userid，username，birthdayscala的操作：1.创建实体类用于接收从数据库中获取的数据case class UserInfos(var userid:Int,var username:String,var birthday:String)2.创建BaseDao连接数据库执行操作object BaseDao{//创建连接对象 def getConnection(

2020-09-16 18:36:53 350

原创 Scala 传值调用和传名调用

传值调用时，参数只在调用时计算一次，后续重复使用计算的结果传名调用时，参数在调用时不会计算，只有真正用到参数的时候才会计算(x:=> Int)object ScalaFunction { var money =10 def count:Int={ money-=1 money } def printByName(x: =>Int): Unit ={ for (i<- 1 to 5){ println(x) } } de

2020-09-14 19:25:37 371

原创 scala函数总结

数组函数大全：方法名：++描述：合并两个序列，若类型不同以左侧类型为主，左侧集合的值在新集合的左侧返回值：左边序列类型方法名：++:描述：合并两个序列，若类型不同则以右边的类型为主，返回值：右边序列的类型方法名：+:描述：在数组前面添加一个元素，在数组的头部添加，冒号要离数组近返回值：数组（类型依据集合中的元素类型而定）方法名：/:描述：对数组中的所有元素从左向右遍历，进行相同的迭代操作，是flodLeft的简写返回值：计算的结果方法名：:+描述：在数组后面添加一个元素

2020-09-12 17:02:32 1381

原创 idea创建scala项目

1、scala的安装以及插件配置：安装scala至C盘，在idea中安装scala插件（需要按idea的版本在其官网找到对应的scala对应版本）在idea的configure项选plugns项选择从本地安装，找到刚下载的对应版本的插件，即可在idea左侧看到scala的图标2、创建scala工程：选择maven的quickstart，修改pom配置文件的jdk1.7版本为1.8在project structure选项中选择language level选择8-Lambads在Librarie

2020-09-12 00:08:39 307

原创 Sqoop安装教程

1、准备：sqoop的tar包：sqoop-1.4.6-cdh5.14.2.tar.gz依赖jar包：java-json.jar、 mysql-connector-java-5.1.27-bin.jar2、安装：解压sqoop至指定目录将其重命名为sqoop146将上面的2个依赖jar包导入值sqoop的lib目录下再将hive目录下的2个相关的jar包也到入至lib下cp /opt/bigdata/hadoop/hive110/lib/hive-common-1.1.0-cdh5.14.2

2020-09-05 22:31:27 528

原创 Hbase安装教程

1、准备准备好hbase-1.2.0-cdh5.14.2.tar.gz的包启动hadoop2、安装以及配置将hbase解压至指定目录在conf目录下，打开 hbase-env.shvi hbase-env.sh添加如下两行export JAVA_HOME=此处填jdk的目录export HBASE_MANAGES_ZK=false打开 hbase-site.xmlvi hbase-site.xml添加如下其中： kbcluster 是集群的名称，可以去50070端口下查看hbas

2020-08-31 23:14:34 437

原创 Hive常用函数及实例

一、关系运算：等值比较: =语法：A=B操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select 1 from test where 1=1;不等值比较: <>语法: A <> B操作类型:所有基本类型描述:如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A与表达式B不相等，则为TRUE；否则为FALSE举例：hive> select1 from test w

2020-08-29 20:30:35 374

原创 Hive的安装以及配置

1、准备先启动hadoop或hadoop-ha将hive-1.1.0-cdh5.14.2.tar.gz解压至目标目录，并改名为hive110修改hive110目录的权限： chown -R root:root hive110安装mysql准备mysql连接java的驱动包2、配置进入hive的conf目录下我这里是/opt/bigdata/hadoop/hive110/conf新建hive-site.xml文件然后编辑vi hive-site.xml其中xxx.xxx.xxx.xxx是

2020-08-29 10:11:44 657

原创各大网站镜像源

可设置maven，npm。。。。等等的下载源1、腾讯镜像源：https://mirrors.cloud.tencent.com/2、华为开源镜像站：https://mirrors.huaweicloud.com/3、阿里巴巴开源镜像站：https://opsx.alibaba.com/4、网易开源镜像站：http://mirrors.163.com/5、中科院大学开源镜像站：http://mirrors.ustc.edu.cn/6、清华大学开源镜像站：https://mirrors

2020-08-19 18:44:25 5986

原创 Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwxrwx---

今天在做Hadoop 分布式实例的时候遇到了这个错误：Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwxrwx—应该是tmp文件夹的权限不够，修改tmp文件夹的权限即可修改一下权限：hdfs dfs -chmod -R 755 /tmp即可...

2020-08-18 09:29:06 855

原创 Hadoop集群搭建教程

1、准备工作：由于hadoop是基于java的，所以需要预先安装jdk，安装jdk的教程可参考这篇：https://blog.csdn.net/qq_34566673/article/details/107797472准备好着两个压缩包，通过xftp传至虚拟机中2、安装：通过tar命令将hadoop主文件解压至指定目录tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/bigdata/hadoop/将解压后的文件夹重命名为hadoop260将na

2020-08-17 22:59:23 182

原创 Elasticsearch分词器插件的安装

分词器下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases安装：通过xftp将下载好的分词器包elasticsearch-analysis-ik-6.2.2.zip传至虚拟机中在elasticsearch的plugins目录下新建ik文件夹通过unzip命令将分词器解压至ik文件夹中如果unzip命令不可用的话可用yum search unzip查找unzip的安装包再通过yum install unzip.x8

2020-08-15 21:04:52 328

原创 Linux下设置免密登录

1、查看当前主机别名hostname2、设置别名jwtmaster为你需要设置的主机别名hostnamectl set-hostname jwtmaster3、配置hosts文件vi /etc/hosts将需要配置免密登录的主机ip以及别名添加至文档的末尾左边为ip地址右边为主机别名，二者一一对应4、生成ssh秘钥进入当前用户目录cd ~如果是root用户的话会进入 /root目录，可通过pwd命令查看当前目录生成秘钥ssh-keygen -t rsa -P “”执行此步命令

2020-08-15 20:25:54 1747

原创一键配置jkd以及tomcat的shell脚本

代码如下：#!/bin/bashINSTALL是放安装包的路径INSTALL=/opt/install/JDK安装包的文件名JDK=jdk-8u111-linux-x64.tar.gzTOMCAT安装包的文件名TOMCAT=apache-tomcat-8.5.57.tar.gzBIGDATA是安装的目标路径BIGDATA=/opt/bigdata/CMD用于执行命令CMD=''show用来展示命令执行的结果show(){msg=''for p in $*domsg=$msg

2020-08-11 19:41:57 206

原创 Linux 下 Elasticsearch的安装和配置

第一步：检查jdk是否安装好输入java -version 以查看jdk版本第二步：下载并解压下载elasticsearch的tar包地址：https://www.elastic.co/cn/downloads/elasticsearch下载到本地硬盘后，通过xftp上传至linux下tar -zxvf执行解压命令tar -zxvf elasticsearch-6.2.2.tar.gz -C /opt/install/其中elasticsearch-6.2.2.tar.gz是elastic

2020-08-08 15:14:00 2339

原创 Centos安装JDK以及Tomcat

通过xftp将linux版本的jdk以及tomcat传到虚拟机中一、JDK安装解压 tar -zxvf jdk-8u111-linux-x64.tar.gz -C /opt/gibdata/java/配置环境变量vi /etc/profile在尾部插入如下三行代码export JAVAHOME=/opt/bigdata/java/jdk180export PATH=$JAVAHOME/bin:$PATHexport CLASSPATH=.:$JAVAHOME/lib/dt.jar:$JA

2020-08-04 20:16:53 383

原创 idea 无法快速联想 Jar 包里的类

idea在通常情况下打一个S 会出现以S开头的所有联想词但是最近莫名其妙，写代码的时候无法快速联想导入的jar包中的类以及方法，必须要将类名及方法名写全才能出来。可以通过清除缓存的方式解决无法快速联想...

2020-08-03 19:56:16 1407

原创 js中长整型（Long）转为时间类型

数据库中存储的日期格式有date型（yyyy-MM-dd）存储的是年月日类型的日期，datetime型（yyy-MM-dd HH:mm:ss sss）精确到毫秒的日期类型。java从数据库中获取的日期为java.util.Date类型，在java程序将数据传向前端页面时，会默认将日期数据转为Long型的毫秒数传过去。要想在前端页面展示出yyyy-MM-dd型，则需要将传过来的长整数转为日期longTypeDate是传进去的长整数function dateFormat(longTypeDate){

2020-07-29 21:56:59 3035

原创 idea出现：”not find catalina.jar“解决方法

tomcat安装在C盘无法输入log日志文件，遂卸载重新安装在D盘，结果重新启动项目时出现：not find catalina.jar提示，项目无法启动。解决方法：在File -> Setting -> Build,Execution,Deployment -> Application Servers将Tomcat Home文件夹改为新安装的目录，点击apply即可...

2020-07-29 11:02:59 2447

原创前后端分离

1、什么是前后端分离在搞清楚前后端分离的概念之前，先来弄清楚什么是非前后端分离。在传统的做法里面，比如servlet，tomcat都会在后台运行java代码，然后再后台生成全部的html代码，接着通过http协议把html代码传输到浏览器。这样做的问题是：a、在后台运行的时候，如果需要连接很多数据库才能把需要的数据查出来，那么这个准备html的过程就会比较缓慢，同时生成的html也相对较大，用户可能感受比较慢。b、前后端开发的联调耦合度也很高，有时候必须相互等待，这样双发的开发效率都降低了。那么

2020-07-26 21:08:36 241

原创 Jstl无法加载怎么办

复制c.tld文件至指定目录，在pom.xml配置文件中添加jsp-config项将url和路径分别填好即可

2020-07-20 18:52:01 393

原创 Idea通过maven打jar包

第一步打开需要封装的工程点击右侧的Maven projects，然后右键install运行在控制台会出现编译好的jar包路径（会存放在maven的本地仓库中）第二步打开需要导入该jar包的maven工程打开pom.xml文件，在dependencies中新建一个dependency然后找到本地仓库中的编译好的jar包，打开pom配置文件将groupId，artifactId，version这三栏信息复制到目标工程的pom.xml中，即可导入jar包...

2020-07-19 18:19:09 539

原创 IDEA配置javaweb

1、先下载安装好tomcat双击安装直接点下一步此处需要选择本机的jre目录，如果不是安装在C盘的haul需要手动选择jre目录（需要选择JavaSE7.0以上的版本）这一步是选择安装目录，选择自己喜欢的目录即可完成之后继续下一步2、打开IDEA新建一个工程，选择maven选择quickstart，点next输入工作组和工程名右下角选择Enable Auto-Import在pom.xml文件中，将两个1.7改为1.8在depencies中添加 <!--

2020-07-13 23:11:10 1610

原创 Mysql中查询一个字段有多个值的写法

在有group by的查询语句中，select指定的字段要么就包含在group by语句的后面，作为分组的依据，要么就包含在聚合函数中。group_concat(EE.last_name order by EE.last_name separator ',')1处表示需要连接在一起的值的字段名order by ：在此字段中的排序方式，默认为正序，DESC为倒序separator :分隔符，值之间用什么符号相连接同一个日期的人名，组成了一个整体...

2020-07-12 23:11:34 5836 1

原创 MySql常用函数

MySql有很多函数，以下列出了常用的函数的用法数字函数函数名描述ABS(x)返回 x 的绝对值AVG(expression)返回一个表达式的平均值，expression 是一个字段CEIL(x)返回大于或等于 x 的最小整数CEILING(x)返回大于或等于 x 的最小整数ABS(x)返回 x 的绝对值COUNT(expression)返回查询的记录总数，expression 参数是一个字段或者 * 号FLOOR(x)返回小于或等于

2020-07-12 22:12:42 140

原创 Centos7安装msql教程

1、清除默认数据库执行此命令查看默认数据库rpm -qa|grep mariadb如果有默认的数据库就执行以下命令yum [-y] remove xxx将默认的数据库删除删除完成之后，再次执行一下查询命令，查看是否删除干净删除干净了之后的界面应该是查询不到任何结果2、安装mysql获取安装包有两种方法，第一种：在线获取：需要保持网络连通ping一下百度的网址，如果出现了一下界面，就证明已经连通了网络//命令如下ping www.baidu.com确认网络通畅后，就可

2020-07-05 14:18:40 209

原创 JS操作DOM-基础知识

一、什么是DOMDOM 是Document Object Model( 文档对象模型 )的缩写。DOM是把html里面的各种数据当作对象进行操作的一种思路。比如一个超链，作为一个DOM对象，就可以使其隐藏，修改其href指向的地址。DOM把所有的html都转换为节点整个文档是一个节点元素是节点元素属性是节点元素内容是节点注释也是节点二、获取节点关键字简介document.getElementById通过id获取元素节点getElementsByTa

2020-07-02 22:35:09 287

js操作dom.xmind

空空如也