自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(157)
  • 资源 (6)
  • 论坛 (1)
  • 收藏
  • 关注

原创 超详细的Hadoop集群部署

本文建立在已经把虚拟机ip环境等已经下载好情况下。那么,直接开始今天的正题:搭建集群环境准备这里提供两种思路:一种是将一台直接搭建好,后面的克隆或者copy虚拟机一种是3台并进,多次进行虚拟机之间文件互传,各有利弊,第一种方式容易漏改ip等问题,第二种方式简单明了,一遍过手,就是步骤稍微多一点,这里采用第二种方式:1、配置服务器(我这里是以3台为例)1个主节点:hadoop1(...

2019-11-08 00:07:13 740 2

原创 关于java 实体类与json 实体类集合与jsonArray的相互转换

最近项目中要多次使用到java 实体类与json 实体类集合与jsonArray的相互转换,接下来把遇到的问题和方法分享一下:class Stu { private String s1; private String s2; private String s3; public String getS1() { return s1; }...

2019-10-23 17:03:14 322

原创 关于Map的几种遍历方式

Map之遍历:关于集合这块需要写的东西其实挺多的,集合有自己的顶级接口Collection,底下又有map和list两个接口,接下来我们谈一谈关于map集合方面的东西。map是java中非常常用的一种数据结构,提供get和put两个常用的方法;map虽然继承了Collection,但却没有实现Collection的Iterator 方法,自身没有迭代器来遍历元素接下来言归正传,对于map的遍历也是...

2018-03-16 10:16:29 255

原创 python数据分析常用图大集合

我们在做数据分析的时候,难免会用到图像来表示你要展示的东西,接下来写一下demo来表示一下各种图:以下默认所有的操作都先导入了numpy、pandas、matplotlib、seabornimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns数据源地址:github地址:https://github.com/mwaskom/seaborn-data 解压缩文件,

2021-01-18 14:49:37 18

原创 python语法基础

1.import 和 from … import 模块的变量、方法引用差异from pandas import DataFrame from…import // 直接使用函数名使用就可以了import pandas as pd import //模块.函数a.import…asimport:导入一个模块;注:相当于导入的是一个文件夹,是个相对路径import A as B:给予工具库 A 一个简单的别称 B ,可以帮助记忆。例:import torc...

2021-01-14 14:48:01 30 2

原创 读取jar包里面文件夹下的所有文件

这块先抛出问题所在:当文件在resource中时,如果在本地直接读,那么是可以读到的,当打成jar包后,就得不到路径,对这个问题做如下总结:我们都知道springboot默认的方式是打包成jar包执行的,这个时候如果需要遍历某个路径下的所有文件夹和文件,按照我们常规的方式是使用File来处理,但是这里由于是jar包,所以使用File类会出现找不到路径的错误,本文介绍一种可以读取文件夹下所有内容的方式public static void main(String[] args) throws IO

2021-01-06 16:10:33 44

原创 循序渐进大数据组件之--Spark中cache和persist的区别

1.首先解释一下这两个方法的作用:为spark做持久化,cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓

2020-12-29 18:07:12 8

原创 循序渐进大数据组件之--Hadoop

最近学习了Hadoop,做一些小的总结:hadoop 两大核心1.hdfs : 用于存储数据1.1 分块 block 默认128mb,1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念1.3 block会默认复制三份,用来防治 数据丢失。1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加1.5NameNode:管理dataNode 读写数据负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去...

2020-12-24 18:34:34 46

原创 推荐算法中点击率CTR修正方法—威尔逊区间

最近学习了hive的udf,ctr修正案例,做个简单小总结:CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值,没有考虑绝对值。即,没有考虑曝光的数值大小,在曝光少的情况下,计算出的CTR其实不可靠,样本充足的情况下,才能反应真实情况举例:此三个广告的CTR 都是 0.5 ,但是按照实际表现,从置信的角度分析,应该是C > B > A,因为C的样本数更多,可信度更高。为了衡量样本数对于 CTR 置信区间的影响,科学家们引入"威尔逊(Wilson)区间"的概念。

2020-12-21 14:05:48 37

转载 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?

Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、cou

2020-12-18 10:56:28 25

原创 plsql Registration code

plsql注册码:Product Code:4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number:601769password:xs374ca这个的确比较好用,大家有其他方面需要激活的可以联系博主,博主qq:907044657...

2020-12-16 20:00:25 10170 5

转载 (0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)

本文转载自大神:橘子派的(0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)http://blog.csdn.net/sileixinhua/article/details/73611056感谢博主的文章本文结构思维导图概述友情提示:1. 对于本文中数据集,训练集,特征点,空间等基础概念,请参考周志华老师的《机器学习》第一章的内容2. Python的语法并不难理解,有编码基础的可以直接看懂,如果不懂,请参考廖雪峰老师的个人博客中Python的教学内容..

2020-12-14 15:43:34 76

原创 循序渐进大数据组件之--Hive

最近学习了一下hive,对其有一些想法,写出来分享一下,本文有些内容转自搜狐文章,文底部会贴出:目录导读:同时补充一下hive与hbase的联系与区别:拓展:hive的几个特点和用法:创建:查询:函数:存储:分区:顺便简单的说一下 sqoop:导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它

2020-12-04 15:35:14 44

原创 禅道的下载和安装教程(Linux版)

搭建步骤1、 先下载包下载禅道包的地址:https://www.zentao.net/download/zentaopms12.4.3-80272.htmlLinux的版本和系统位数查询方法2.安装方法,推荐使用一键安装包,我的服务器是Cento 7 64位禅道安装步骤,跟着官网走就行了(几乎完全傻瓜式):https://www.zentao.net/book/zentaopmshelp/90.html3.换公司名称:https://www.zentao.ne

2020-12-03 14:23:05 27

原创 CentOS7安装CDH6.2.0安装过程--详细版

准备建议最少4台物理机或者虚拟机(一个控制节点,3个数据节点),4核16G,硬盘500G,挂载根目录 如果用于学习,可以4核8G,如果是生产部署,推荐8核32G以上 系统为CentOS7.6,使用root用户登录 CDH版本为6.2.0节点说明规划:cdh1 主节点cdh2 从节点cdh3 从节点cdh4 从节点基础配置挂载磁盘操作请参考这篇文章 : https://blog.csdn.net/Alex_81D/article/details/10504...

2020-11-19 10:08:23 174

原创 Linux:挂载iso镜像和过程中出现的问题

1.首先把iso镜像包发送过来2.;https://blog.csdn.net/weixin_43866699/article/details/84997120订阅插件提示:This system is not registered with an entitlement server. You can use subscription-manager tohttps://blog.csdn.net/oraoharu/article/details/106808108linux unzip命

2020-11-12 09:33:38 78

原创 CentOS 7.5x64 系统安装

CentOS 7.4x64 系统安装完成后配置安装CentOS操作系统在进入系统引导后,会进入文字界面,选择install CentOS7(用键盘上的方向键↑、↓来选择要执行的操作,白色字体表示选中,按下回车,进入下一步操作)按回车执行安装过程选择安装的语言设置安装类型点击“软件选择”,默认是最小安装,只有系统功能,完全使用命令行操作选择“带GUI的服务器”,若是安装到服务器上可以选择右边附带的软件,在安装的时候会一并安装,这里没有安装的话,后期也可以在系统安

2020-10-19 11:06:25 49

原创 java读取文本文件内容

背景:需要读取文件中普通字符串,方法解读:java读取文本文件内容public class Chaifen { public static String readFileContent(String fileName) { File file = new File(fileName); BufferedReader reader = null; StringBuffer sbf = new StringBuffer(); try {

2020-10-16 14:57:25 42

转载 5类系统推荐算法,非常好使,非常全

◆ ◆ ◆  序言  最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:    而对于刚接触这个领域的我来说,是这样的:    在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。  ◆ ◆ ◆  什么是推荐系统  1. 什么是推荐系统?  推荐系统是啥?  如果你是个多年电商(剁手)党,你会说是这个:  

2020-10-16 11:56:12 279

转载 scala基础语法-----Spark基础

scala基本语法我们可以根据scala 菜鸟教程来学习地址为:https://www.runoob.com/scala/scala-tutorial.htm1.变量声明/*** 定义变量使用var或者val关 键 字* 语法:* var | val 变量名称(: 数据类型) =变量值 */// 使用val修饰的变量, 值不能为修改,相当于java中final修饰的变量val name = "tom"...

2020-09-29 18:11:45 148

原创 Spark小Demo,连接mongo,并处理密码或者用户名带特殊符号

sprak小demo,用spark连接mongodb,并且处理密码或者用户名带特殊符号的方法import java.net.URLEncoderimport com.mongodb.spark.MongoSparkimport com.mongodb.spark.config.ReadConfigimport org.apache.spark.sql.SparkSessionimport org.junit.Testclass FlowTest2 { @Test def te.

2020-09-11 15:01:57 147

原创 Mybatis中foreach属性的含义

MyBatis的foreach语句详解foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合。foreach元素的属性主要有 item,index,collection,open,separator,close。item集合中每一个元素进行迭代时的别名,index表示在迭代过程中,每次迭代到的位置,open该语句以什么开始,separator在每次进行迭代之间以什么符号作为分...

2020-06-23 18:21:27 12805 7

原创 CentOS7安装CDH6.2.0以及CDH安装过程的坑

Can't open /var/run/cloudera-scm-agent/process/261-hdfs-DATANODE/supervisor.conf: Permission denied.这个问题先处理权限问题,处理完事儿后再试,sduochmod-R777/usr/local/hadoop/logschown-Rcloudera-scm:cloudera-scm/var/*不行再用第二种方法;怀疑是权限问题,上网查询了之后,才知道看起来...

2020-06-03 16:17:23 587

原创 Spring Boot配置文件放在jar外部的几种方案

springboot读取外部配置文件的方法,如下优先级:第一种是在执行命令的目录下建config文件夹。(在jar包的同一目录下建config文件夹,执行命令需要在jar包目录下才行),然后把配置文件放到这个文件夹下。第二种是直接把配置文件放到jar包的同级目录。第三种在classpath下建一个config文件夹,然后把配置文件放进去。第四种是在classpath下直接放配置文件。springboot默认是优先读取它本身同级目录下的一个config/application.properties

2020-06-03 15:13:26 143

原创 svn没有绿色的对勾处理

在java开发过程中,通常会用到版本管理工具svn,可是在安装好checkout文件后经常会发现没有小绿勾,很不自然,以下是几种解决方案,一种不行可以多试几种。第一步:进入任意一个svn checkout下来的文件夹,鼠标右键,依次进入TortoiseSVN---Settings 。如图:第二步:在打开的设置窗口内找到“图标叠加(Icon overlays)”,将状态缓存(...

2020-05-07 13:52:13 367 1

原创 js onclick传递 对象

在html onclick中如果参数直接传递一个参数js会报错。如果想要onclick传递参数需要这么做:var obj = {id: 1, name: 'jimc', age: 20};传json对象var jsonObj = '<a onclick="show(' + JSON.stringify(obj).replace(/"/g, '&quot;') + ...

2020-04-03 15:25:55 231

原创 H2数据库入门

一、H2简介  1、H2是一个用Java开发的嵌入式数据库,它本身只是一个类库,可以直接嵌入到应用项目中。  H2最大的用途在于可以同应用程序打包在一起发布,这样可以非常方便地存储少量结构化数据。  它的另一个用途是用于单元测试。启动速度快,而且可以关闭持久化功能,每一个用例执行完随即还原到初始状态。  H2的第三个用处是作为缓存,作为NoSQL的一个补充。当某些场景下数据模型必须为关系型...

2020-04-03 15:20:05 130

原创 kafka单机搭建及操作--做个记录

最近一直在搞springboot整合kafka,于是自己搭建了一套单机的kafka环境,以便用于测试环境搭建1.下载解压kafka_2.11-1.1.0.tgz,创建移动到kafka文件夹中wget http://archive.apache.org/dist/kafka/1.1.0/kafka_2.11-1.1.0.tgztar -xzvf kafka_2.11-1.1.0.tg...

2020-03-31 13:44:21 145

原创 Hadoop YARN中内存优化的设置---yarn.scheduler.maximum-allocation-mb

在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”)后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提...

2020-03-31 13:29:14 766

转载 [Apache软件下载]-- apache各种版本的软件和源码下载网址(包含历史版本)

一、链接:http://archive.apache.org/dist/二、举例1、spark下载:http://archive.apache.org/dist/spark/2、hadoop下载:http://archive.apache.org/dist/hadoop/3、flume下载:http://archive.apache.org/dist/flume/4、kafka...

2020-03-27 10:34:01 144

原创 Docker基础学习--搭建环境

Docker 是一个开放源代码软件项目,让应用程序布署在软件容器下的工作可以自动化进行,借此在 Linux 操作系统上,提供一个额外的软件抽象层,以及操作系统层虚拟化的自动管理机制。1、Docker安装相对而言,Linux 上安装 Docker 是最容易的,其次是 Mac ,最后是 Windows ,Windows 因此要装的东西比较多,官方也提供了两个不同的安装包,支持不同的 Windo...

2020-03-25 14:15:43 98

原创 Could not initialize class sun.awt.X11GraphicsEnvironment异常处理

原因导致:经过Google发现很多人也出现同样的问题。从了解了X11GraphicEnvironment这个类的功能入手,一个Java服务器来处理图片的API基本上是需要运行一个X-server以便能使用AWT(Abstract Window Toolkit,抽象窗口工具集)。所以,问题肯定出在启动server时,未能实现X-Server功能。root用户未启动XServer,mm...

2020-03-25 13:34:22 858

原创 Spark集群无法停止的原因分析和解决(Hadoop集群也有这个问题)

今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示:no org.apache.spark.deploy.master.Master to stopno org.apache.spark.deploy.worker.Worker to stop上网查了一些资料,再翻看了一下stop-all.sh,stop-master.sh,stop-s...

2020-03-25 13:24:03 179

原创 centos7挂载磁盘-五步走

首先解释一下磁盘挂载的含义:挂载通常是指给磁盘分区(包括被虚拟出来的磁盘分区)分配一个盘符。 第三方软件,如磁盘分区管理软件、虚拟磁盘软件等,通常也附带挂载功能,通俗的说一下,就说给Linux分一块盘,LInux是用目录管理盘符的,跟windows刚好相反:windows是用盘符管理目录的1.查询出增加的硬盘,使用fdisk -l,下图中有影射的是已经存在的2.硬盘分区。新添加...

2020-03-23 11:10:26 557

原创 oracle或mysql获取分组后每组的前三条数据

mysql :select a.* from(select t1.*,(select count(*)+1 from 表 where 分组字段=t1.分组字段 and 排序字段<t1.排序字段) as group_idfrom 表 t1) awhere a.group_id<=3oracle:SELECT t.* FROM (SELE...

2020-03-16 15:57:58 350 1

原创 关于Mysql关键字报错 (`这个符号在mysql中的作用)

`这个符号在mysql中的作用` 是MySQL的转义符,避免和 mysql 的本身的关键字冲突,只要你不在列名、表名中使用mysql的保留字或中文,就不需要转义。所有的数据库都有类似的设置,不过mysql用的是`而已。通常用来说明其中的内容是数据库名、表名、字段名,不是关键字。例如:select from from table;第一个from是字段名,最后的table...

2020-03-13 10:17:31 221

原创 随笔

pg 语法上和其他数据库还是有些许不同,工作中常用的操作语句分享给大家!-- 建表语句create table ods.ods_b_bill_m (acct_month text,user_id text,city_code text)WITH (appendonly=true,orientation=column,--列存 行存为 rowcompres...

2020-03-12 15:43:51 92

原创 Linux下分卷Zip文件的合并并解压缩

有时候给项目上发包是分好几个压缩包发过去的,在Linux下怎么去解压合并方法:首先 cat piflow-server-0.9.zip* > piflow-server-0.9.zip #合并为一个zip包然后 unzip piflow-server-0.9.zip #解压zip包就可以了,方法不错,记录保存...

2020-02-12 09:57:25 359

转载 RDD和DataFrame和DataSet三者间的区别

https://blog.csdn.net/deng624796905/article/details/80216168https://blog.csdn.net/weixin_43087634/article/details/84398036这两篇文章讲的很详细,大神级别的,可以拜读DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFr...

2020-01-07 16:27:11 101

原创 Kafka Consumer深入理解

最近项目需要进行实时读取服务端信息,在网上看到kafka可以解决这个问题,开发完成后对kafka做一个简单的整理,希望可以帮助到刚开始学习kafka 的同学,给自己也做个笔记:首先说一下kafka是个什么东西:kafka是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需...

2019-12-23 08:39:49 113

springboot+ajax的小例子

适合初学者,里面包括SpringBoot的例子以及thymleaf的用法及Springdate-JPA进行操作前台跟数据库,比较有帮助

2018-04-20

json转换时所需jar

配置服务端所需要的jar文件,包括commons-logging commons-beanutils commons-lang ezmorph json-lib-2.4-jdk15 commons-collections-3.2.1等在内的六个资源文件jar包,关于json报错的问题直接加入这些jar包,就OK了,有什么需要可以直接联系小编

2018-03-23

64位windows jdk1.7

64位windows jdk1.7,win7、win10都支持,亲测可用,如有其它需要也可直接联系小编,907044657@qq.com

2018-08-07

Linux版 tomcat8.0 下载

linux下的tomcat 8,jsp和servlet的开发基础服务器.版本是8.0.52,需要的可以下来试试。亲测好用,关于Tomcat的其他问题也可以咨询小编

2018-05-23

Netty网络框架学习资源(珍藏版)

本课件为Netty详细教学电子书,里面包括Netty的通信协议,已经全部API和加解密方式进行了详细讲解,对新手和老手都很有帮助

2018-05-03

MySQL学习笔记

MySQL学习资料,从SQL到PLSQL全部都有,需要的同学可以看看

2018-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除