cat__hadoop-CSDN博客

原创程序员日报周报月报模板

在群里看到的,顺手记得保存:持续优化xxx重构了xxx梳理xxx，总结xxx排查xxx问题改进了xxx逻辑，性能得到提升通过 xxx 降低了 xxx 至 xxx为了 xxx 重新设计了 xxx为了 xxx 通过 xxx 完成了 xxx通过 xxx 优化了 xxx 为 xxx为了 xxx 将 xxx 应用到了 xxx通过 xxx 提高了 xxx 至 xxx为了 xxx 通过 xxx 将 xxx 集成为了 xxx 通过 xxx 成立了 xxx...

2020-08-26 10:57:07 8060 1

转载 Collectors.toMap NullPointerException

日了狗了！！！解决办法如下：https://blog.csdn.net/zijikanwa/article/details/103034971酱紫修改： Map<String, Object> map = o.getValue().stream().flatMap(m->{ return m.entrySet().strea...

2020-03-19 11:54:13 212

原创 maven打包带依赖和瘦包

带依赖打包，胖包pom.xml添加如下配置 <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifact...

2019-07-25 09:47:35 2117

原创 slf4j日志使用

项目使用slf4j日志工具：pom导入 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.25</versi...

2019-07-25 09:25:51 818

转载图解elasticsearch的写入流程(包含对refresh、fsync、flush操作的理解)

elasticsearch写入数据时涉及到的核心概念讲解：segment file: 存储倒排索引的文件，每个segment本质上就是一个倒排索引，每秒都会生成一个segment文件，当文件过多时es会自动进行segment merge（合并文件），合并时会同时将已经标注删除的文档物理删除；commit point（重点理解）: 记录当前所有可用的segment，每...

2019-06-26 10:50:31 2071

原创 scala编写spark报错java.lang.ArrayIndexOutOfBoundsException: 10582

当前环境：jdk1.8+scala1.2+spark2.4 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version&g...

2019-04-13 17:05:59 2149 1

原创 java nosuchmethoderror解决办法

设置Main类启动参数VM options：-verbose:class输出jvm载入类的相关信息，当jvm报告说找不到类或者类冲突时可此进行诊断。有关jvm设置参数，见另一篇博客，更详细的说明。地址：jvm启动参数设置...

2019-03-04 20:02:07 457

转载【转】JAVA JVM启动参数

java启动参数共分为三类：标准参数（-），所有的JVM实现都必须实现这些参数的功能，而且向后兼容；非标准参数（-X），默认jvm实现这些参数的功能，但是并不保证所有jvm实现都满足，且不保证向后兼容；非Stable参数（-XX），此类参数各个jvm实现会有所不同，将来可能会随时取消，需要慎重使用；...

2019-03-04 19:58:11 529

原创 docker timeout 解决办法

docker timeout 解决办法.# 配置代理,此处为阿里云的镜像,可选其他的.{ "registry-mirrors": [ "https://khec465u.mirror.aliyuncs.com" ]}运行docker run hello-world 测试是否正常.报错:网络问题报错如下:C:\Users\Administrator>docker...

2018-10-26 20:08:55 12033

转载 PySpark的实现原理

PySpark实现了Spark对于Python的API，通过它，用户可以编写运行在Spark之上的Python程序，从而利用到Spark分布式计算的特点。基本流程PySpark的整体架构图如下，可以看到Python API的实现依赖于Java的API，Python程序端的SparkContext通过py4j调...

2018-04-28 13:55:14 1174

转载 Hadoop,Zookeeper,Hbase,Hive,Spark,Kafka,CDH中webui常用端口

Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 Zookeeper: 2181 ：客户端连接zooke...

2018-04-27 15:13:45 2136

原创 jupyter中使用pyspark连接spark集群

目标:此文在jupyter中配置pyspark,并非配置pyspark的内核,而是希望在python3的内核下,使用pyspark连接spark集群. 准备:spark单机版 , jupyter notebook ,且两者不在同一机子上1.安装在默认的jupyter notebook中是没有pyspark包的,所以需要下载依赖包才行. 网上现在有2个包,支持python 去连接 s...

2018-04-27 14:05:56 10967 2

转载 Spark中DataFrame与Pandas中DataFrame的区别

出处：http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式单机single machine tool，没有并行机制parallelism 不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并...

2018-04-20 15:36:26 2325 1

原创数据库事物特性和事物隔离级别

A Atomicity 原子 C Consistency一致 I Isolation 隔离 D Durability 持久事物并发现象： 1. 脏读（读到了未提交的内容） 2. 不可重复读（读不回去） 3.幻读（多读了）为了解决以上现象，设置事物的隔离级别： 1.读未提交（可以读取未提交的内容，eg：t1读取了t2未提交的内容，t2回滚了，就导致了脏读发生） 2

2018-02-03 22:49:53 284

原创 linux修改/etc/profile出错command not found解决办法

linux修改/etc/profile出错导致所有命令都command not found的解决办法执行命令export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin因为基本所有的shell命令都包含在上面几个目录中，执行完后，就可以执行其他命令，赶紧把/etc/profile的错误改正过来~~~ 然后再#立即生效

2018-01-23 09:54:51 5336 1

原创 Hadoop中DataNode没有启动解决办法

查看从节点机器hadoop中datanode的log文件 , 拉到最后 , 报错如下2017-11-22 13:51:17,114 WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs in /home/grid/hadoop-2.7.2/dfs/data: na

2017-11-22 15:56:38 20151 9

原创 linux中java -version与etc/profile配置的java版本不一样解决办法

linux中java -version与etc/profile配置的java版本不一样解决办法使用which java 查看当前java路径显示 /usr/bin/java解决办法： rm -rf /usr/bin/java rm -rf /usr/bin/javac前提保证JAVA_HOME系统变量没错误后执行下面语句 ln -s \$JAVA_HOME/bin/java /usr/bi

2017-11-22 15:47:16 2094

转载 ORACLE设置表ID自增

1、创建表create table note( id number(20) NOT NULL primary key,/*主键，自动增加*/ name varchar2(20)); 122、创建自动增长序列 Create Sequence addAuto_Sequence Increment by 1 -- 每次加几个 start

2017-10-26 10:54:51 869

原创构建数据仓库的基本步骤

确定主题确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况. 主题要体现出某一方面的各个分析维度和统计量度之间的关系.确定度量度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值确定分析粒度采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值确定维度表分析主题的各个

2017-10-05 15:48:42 8457

原创 python爬取拉勾网数据保存到mysql数据库

环境:python3 相关包:requests , json , pymysql 思路:1.通过chrome F12找到拉钩请求接口,分析request的各项参数 2.模拟浏览器请求拉钩接口 3.默认返回的json不是标准格式 , 对返回的json数据进行处理转换为标准格式 4.利用pymysql模块进行db操作#coding:utf-8import random

2017-10-05 10:47:32 2066 1

转载 SQL Developer 配置

SQL Developer是免费的，当你不能得到Toad, PL/SQL Developer的License。它是个很好的选择。他也提供了非常强大的功能。这篇文章介绍一些配置，让SQL Developer用起来更方便。这些都可以在“工具”-->"选项"(Tools , Preferences)菜单里设置。直接在搜索栏里输入关键字，即可找到。1. 字体 Code Editor – Fonts

2017-09-06 15:45:22 3064

原创 Python爬取虎扑步行街,爆照区中的照片

使用的是Python3+reqeusts 源码如下#encoding:gbkimport requestsimport reimport timedef get_pages(url):#拼凑每一页的url pages = [] for i in range(1,50,1):#爬取第1到50页的帖子 new_url=url+'-'+str(i)

2017-08-19 17:59:59 1862 1

原创 Python高阶函数

#coding: gbk'''Created on 2017年8月13日@author: Administrator'''from builtins import strfrom _functools import reducefrom _ast import Strfrom _sre import getlowerfrom _overlapped import NULLfrom

2017-08-13 12:50:05 386

原创 Python基础

# coding=gbkfrom pip._vendor.pyparsing import Eachmovies = ["The Holy Grail","The Life of Brain","The Meaning of Life"]print(movies[0])print(movies)movies.pop()print(movies)movies.append("The app

2017-08-11 23:16:37 295

转载数据库多表查询之 where & INNER JOIN

在多表查询中，一些SQL开发人员更喜欢使用WHERE来做join，比如：SELECT a.ID, b.Name, b.Date FROM Customers a, Sales b WHERE a.ID = b.ID;缺点：在上面语句中，实际上是创建了两张表的笛卡尔积，所有可能的组合都会被创建出来。在笛卡尔连接中，在上面的例子中，如果有1000顾客和1000条销售记录，这个查询会先产生100

2017-08-11 16:58:39 404

原创 mysql创建时间维度的sql脚本

mysql创建时间维度sql脚本其中d0是开始时间,d1是结束时间 T是万能的表,只需满足T表的记录数量大于所插入的时间行数即可.# time span SET @d0 = "2014-01-01"; SET @d1 = "2016-12-31"; SET @date = date_sub(@d0, interval 1 day); # set up the time dim

2017-07-19 17:05:48 843

转载数据仓库中缓慢变化维的总结

此文转载地址关于数据仓库中缓慢变化维的总结首先说一下概念，缓慢变化维（Slowly Changing Dimensions）指的是：维度表里面的数据并非是始终不变的，总会随着时间发生变化：假设我们有一张我们公司的销售员维度表如下，记录了每个销售员的一些基本信息，那么随着时间的变化销售员可能会在各省公司间调岗，如将周杰伦调入北京分公司，针对这种变化，业务系统会直接将业

2017-07-14 16:29:42 888

转载 Java线程同步：synchronized锁住的是代码还是对象

此文章是转载自大牛博客,原文地址http://blog.csdn.net/xiao__gui/article/details/8188833在Java中，synchronized关键字是用来控制线程同步的，就是在多线程的环境下，控制synchronized代码段不被多个线程同时执行。synchronized既可以加在一段代码上，也可以加在方法上。关键是，不要认为给方法或者代码段加上sy

2017-07-04 11:00:19 286

原创 Java中ArrayList集合中subList方法注意事项

Queue接口中方法简单介绍:添加元素 offer add 比offer多抛出一个IllegaISlabEepeplian异常返回并删除头部元素 poll remove 若头部为空,抛出异常返回头部元素 peek element 若头部为空,抛出异常

2017-06-30 14:53:12 596

转载 Java集合类的UML类图

此博客是从大牛博客中转载过来的,原博客地址http://blog.csdn.net/vking_wang/article/details/16965853网上能搜到很多Java集合类的类图，但是感觉都不是非常明晰。于是自己绘制了一份。

2017-06-28 13:39:49 641

转载 Java线程的5种状态及状态之间转换

Java中的线程的生命周期大体可分为5种状态。1. 新建(NEW)：新创建了一个线程对象。2. 可运行(RUNNABLE)：线程对象创建后，其他线程(比如main线程）调用了该对象的start()方法。该状态的线程位于可运行线程池中，等待被线程调度选中，获取cpu 的使用权。3. 运行(RUNNING)：可运行状态(runnable)的线程获得了cpu 时间片（times

2017-06-26 16:18:23 15789 5

原创 JDK动态代理Demo

JDK动态代理Demo需要几样东西:被代理类被代理类实现的接口代理类测试类被代理类实现的接口package java_jdk_proxy;public interface Person { public void say(); public void eat();}被代理类package java_jdk_proxy;public class PersonImpl imp

2017-06-23 17:20:35 408

转载 java线程池实现原理

本文转载自大神博客,仅作备份.转载地址:http://blog.csdn.net/hzw19920329/article/details/52372348 最近在看Java线程池实现方面的源码，在此做个小结，因为网上关于线程池源码分析的博客挺多的，我也不打算重复造轮子啦，仅仅用纯语言描述的方式做做总结啦！个人认为要想理解清楚java线程池实现原理，明白下面

2017-06-23 14:10:33 317

转载 Java集合类详解

Collection├List│├LinkedList│├ArrayList│└Vector│　└Stack└SetMap├Hashtable├HashMap└WeakHashMapCollection接口　　Collection是最基本的集合接口，一个Collection代表一组Object，即Collection的元素（Elements）。一

2017-06-22 14:35:18 258

转载 java8新特性（λ、stream 与默认接口方法）

1.lambdaλ表达式本质上是一个匿名方法，用来方便地实现函数接口。也就是说，λ表达式主要用于替换以前广泛使用的内部匿名类。让我们来看下面这个例子： public int add(int x, int y) { return x + y; }转成λ表达式后是这个样子： (int x, int y) -> x + y;参数类型也可以省略，Java编

2017-06-09 20:27:08 513

原创 Java中创建枚举并赋初值

枚举在内部其实都是数值,如果只申明枚举而不赋值,是不安全的.public enum TableType { TABLE, VIEW;}就像上面这样,创建后,并且保存到数据库里.如果后期再添加一个新的,如果添加到了TABLE, VIEW;的中间比如TABLE,OTHER, VIEW;,那么致命问题就来了,VIEW的值就变了,酿成大错~~~ so,用到枚举的时候,最好给枚举赋初值.就不会出

2017-04-18 11:06:50 44033

转载 java 根据实体对象生成增删改的SQL语句 ModelToSQL

原文链接在参考原文链接的代码后,发现有一处小错误,就是update 的set 两个条件之间差逗号,于是乎自己小小的修改了下,并且加了部分代码的注释,最终代码如下:package com.xxx.utils;import java.lang.reflect.Field;import java.lang.reflect.Modifier;import java.util.List;import

2017-04-12 15:58:00 6394

原创注解方式实现aop权限管理

一个切面类,一个自定义注解接口自定义注解接口:@Target({ElementType.METHOD})@Retention(RetentionPolicy.RUNTIME)@Documented@Inheritedpublic @interface LoginAnnotation {}切面类:@Aspect//切面类@Configuration //springboot配置类publi

2017-04-01 10:30:04 510

转载【spring-boot】spring aop 面向切面编程初接触

众所周知，spring最核心的两个功能是aop和ioc，即面向切面，控制反转。这里我们探讨一下如何使用spring aop。1.何为aop　　aop全称Aspect Oriented Programming，面向切面，AOP主要实现的目的是针对业务处理过程中的切面进行提取，它所面对的是处理过程中的某个步骤或阶段，以获得逻辑过程中各部分之间低耦合性的隔离效果。其与设计模式完成的任务差不多，是

2017-04-01 10:13:35 1194

原创 SpringBoot+SpringDataJpa后台常用注解

SpringDataJpa中sqlite的时间格式必须为'2017-03-23 09:10:29.100' 否则报错com.controller@RestController 表示该类是controller层 //@RestController注解相当于@ResponseBody ＋ @Controller合在一起的作用。@RequestMapping("/") 请求路径

2017-03-23 09:36:37 980

快学scala第二版中文带书签

快学Scala第二版中文，这让你最快速度上手Scala，对初学者很实用。文字清晰,且可以复制. 大家一起学习~~~

2018-12-31

Spark快速大数据分析中文版PDF(带书签+笔记)

spark大数据分析的课本中文版pdf，高清pdf，可以直接复制文字的。pdf带了课本的书签，重要地方有笔记，可以提供参考。

2018-03-26

程序员跳槽全攻略

和那些职场鸡汤不同，本书从价值论开始，引入职业画布，从九大方面为你讲解；有分析数据、有简历模板、有书写工具、有技能树图，堪称一本公司老板和HR最害怕你看到的跳槽百科。作者@Easy为互联网人才拍卖网站JobDeer.com和程序员直投网站快简历创始人，在过去一年里，阅读过上万份技术简历，帮数千位程序员找到工作，在技术求职和招聘方面有丰富的实践经验。

2018-01-18

ASP.NET系统网站网页 C#源码 mvc权限快速开发建站框架OA CRM CMS

淘宝花钱买的,现分享出来,全套源码加使用说明

2017-02-17

Hadoop应用开发技术详解pdf完整版1-12章全含代码

本pdf包含Hadoop应用开发技术详解书完整版一共425页,这是学习Hadoop很不错的教材,且包含书中的代码.文件太大100M,故下载文件为百度云分享.永久有效

2016-12-20

电脑已连接WIFI密码查看并保存到桌面的cmd命令

复制内容粘贴到cmd窗口下即可

2016-12-18

UML通俗易懂版教程

此版本通过两个管理系统作为例子来教学，通俗易懂

2016-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

快学scala第二版 中文 带书签