- 博客(76)
- 资源 (8)
- 收藏
- 关注
原创 程序员日报周报月报 模板
在群里看到的,顺手记得保存:持续优化xxx重构了xxx梳理xxx,总结xxx排查xxx问题改进了xxx逻辑,性能得到提升通过 xxx 降低了 xxx 至 xxx为了 xxx 重新设计了 xxx为了 xxx 通过 xxx 完成了 xxx通过 xxx 优化了 xxx 为 xxx为了 xxx 将 xxx 应用到了 xxx通过 xxx 提高了 xxx 至 xxx为了 xxx 通过 xxx 将 xxx 集成为了 xxx 通过 xxx 成立了 xxx...
2020-08-26 10:57:07 8060 1
转载 Collectors.toMap NullPointerException
日了狗了!!!解决办法如下:https://blog.csdn.net/zijikanwa/article/details/103034971酱紫修改: Map<String, Object> map = o.getValue().stream().flatMap(m->{ return m.entrySet().strea...
2020-03-19 11:54:13 212
原创 maven打包带依赖和瘦包
带依赖打包,胖包pom.xml添加如下配置 <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifact...
2019-07-25 09:47:35 2117
原创 slf4j日志使用
项目使用slf4j日志工具:pom导入 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.25</versi...
2019-07-25 09:25:51 818
转载 图解elasticsearch的写入流程(包含对refresh、fsync、flush操作的理解)
elasticsearch写入数据时涉及到的核心概念讲解:segment file: 存储倒排索引的文件,每个segment本质上就是一个倒排索引,每秒都会生成一个segment文件,当文件过多时es会自动进行segment merge(合并文件),合并时会同时将已经标注删除的文档物理删除;commit point(重点理解): 记录当前所有可用的segment,每...
2019-06-26 10:50:31 2071
原创 scala编写spark报错java.lang.ArrayIndexOutOfBoundsException: 10582
当前环境:jdk1.8+scala1.2+spark2.4 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version&g...
2019-04-13 17:05:59 2149 1
原创 java nosuchmethoderror解决办法
设置Main类启动参数VM options:-verbose:class输出jvm载入类的相关信息,当jvm报告说找不到类或者类冲突时可此进行诊断。有关jvm设置参数,见另一篇博客,更详细的说明。地址:jvm启动参数设置...
2019-03-04 20:02:07 457
转载 【转】JAVA JVM启动参数
java启动参数共分为三类:标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容; 非标准参数(-X),默认jvm实现这些参数的功能,但是并不保证所有jvm实现都满足,且不保证向后兼容; 非Stable参数(-XX),此类参数各个jvm实现会有所不同,将来可能会随时取消,需要慎重使用;...
2019-03-04 19:58:11 529
原创 docker timeout 解决办法
docker timeout 解决办法.# 配置代理,此处为阿里云的镜像,可选其他的.{ "registry-mirrors": [ "https://khec465u.mirror.aliyuncs.com" ]}运行docker run hello-world 测试是否正常.报错:网络问题报错如下:C:\Users\Administrator>docker...
2018-10-26 20:08:55 12033
转载 PySpark的实现原理
PySpark实现了Spark对于Python的API,通过它,用户可以编写运行在Spark之上的Python程序,从而利用到Spark分布式计算的特点。基本流程PySpark的整体架构图如下,可以看到Python API的实现依赖于Java的API,Python程序端的SparkContext通过py4j调...
2018-04-28 13:55:14 1174
转载 Hadoop,Zookeeper,Hbase,Hive,Spark,Kafka,CDH中webui常用端口
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 Zookeeper: 2181 : 客户端连接zooke...
2018-04-27 15:13:45 2136
原创 jupyter中使用pyspark连接spark集群
目标:此文在jupyter中配置pyspark,并非配置pyspark的内核,而是希望在python3的内核下,使用pyspark连接spark集群. 准备:spark单机版 , jupyter notebook ,且两者不在同一机子上1.安装在默认的jupyter notebook中是没有pyspark包的,所以需要下载依赖包才行. 网上现在有2个包,支持python 去连接 s...
2018-04-27 14:05:56 10967 2
转载 Spark中DataFrame与Pandas中DataFrame的区别
出处:http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并...
2018-04-20 15:36:26 2325 1
原创 数据库事物特性和事物隔离级别
A Atomicity 原子 C Consistency一致 I Isolation 隔离 D Durability 持久事物并发现象: 1. 脏读(读到了未提交的内容) 2. 不可重复读 (读不回去) 3.幻读 (多读了)为了解决以上现象,设置事物的隔离级别: 1.读未提交(可以读取未提交的内容,eg:t1读取了t2未提交的内容,t2回滚了,就导致了脏读发生) 2
2018-02-03 22:49:53 284
原创 linux修改/etc/profile出错command not found解决办法
linux修改/etc/profile出错导致所有命令都command not found的解决办法执行命令export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin因为基本所有的shell命令都包含在上面几个目录中, 执行完后,就可以执行其他命令,赶紧把/etc/profile的错误改正过来~~~ 然后再#立即生效
2018-01-23 09:54:51 5336 1
原创 Hadoop中DataNode没有启动解决办法
查看从节点机器hadoop中datanode的log文件 , 拉到最后 , 报错如下2017-11-22 13:51:17,114 WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs in /home/grid/hadoop-2.7.2/dfs/data: na
2017-11-22 15:56:38 20151 9
原创 linux中java -version与etc/profile配置的java版本不一样解决办法
linux中java -version与etc/profile配置的java版本不一样解决办法 使用which java 查看当前java路径 显示 /usr/bin/java解决办法: rm -rf /usr/bin/java rm -rf /usr/bin/javac前提保证JAVA_HOME系统变量没错误后执行下面语句 ln -s \$JAVA_HOME/bin/java /usr/bi
2017-11-22 15:47:16 2094
转载 ORACLE设置表ID自增
1、创建表create table note( id number(20) NOT NULL primary key,/*主键,自动增加*/ name varchar2(20)); 122、创建自动增长序列 Create Sequence addAuto_Sequence Increment by 1 -- 每次加几个 start
2017-10-26 10:54:51 869
原创 构建数据仓库的基本步骤
确定主题 确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况. 主题要体现出某一方面的各个分析维度和统计量度之间的关系.确定度量 度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值确定分析粒度 采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值确定维度表 分析主题的各个
2017-10-05 15:48:42 8457
原创 python爬取拉勾网数据保存到mysql数据库
环境:python3 相关包:requests , json , pymysql 思路:1.通过chrome F12找到拉钩请求接口,分析request的各项参数 2.模拟浏览器请求拉钩接口 3.默认返回的json不是标准格式 , 对返回的json数据进行处理转换为标准格式 4.利用pymysql模块进行db操作#coding:utf-8import random
2017-10-05 10:47:32 2066 1
转载 SQL Developer 配置
SQL Developer是免费的,当你不能得到Toad, PL/SQL Developer的License。它是个很好的选择。他也提供了非常强大的功能。这篇文章介绍一些配置,让SQL Developer用起来更方便。这些都可以在“工具”-->"选项"(Tools , Preferences)菜单里设置。直接在搜索栏里输入关键字,即可找到。1. 字体 Code Editor – Fonts
2017-09-06 15:45:22 3064
原创 Python爬取虎扑步行街,爆照区中的照片
使用的是Python3+reqeusts 源码如下#encoding:gbkimport requestsimport reimport timedef get_pages(url):#拼凑每一页的url pages = [] for i in range(1,50,1):#爬取第1到50页的帖子 new_url=url+'-'+str(i)
2017-08-19 17:59:59 1862 1
原创 Python高阶函数
#coding: gbk'''Created on 2017年8月13日@author: Administrator'''from builtins import strfrom _functools import reducefrom _ast import Strfrom _sre import getlowerfrom _overlapped import NULLfrom
2017-08-13 12:50:05 386
原创 Python基础
# coding=gbkfrom pip._vendor.pyparsing import Eachmovies = ["The Holy Grail","The Life of Brain","The Meaning of Life"]print(movies[0])print(movies)movies.pop()print(movies)movies.append("The app
2017-08-11 23:16:37 295
转载 数据库多表查询之 where & INNER JOIN
在多表查询中,一些SQL开发人员更喜欢使用WHERE来做join,比如:SELECT a.ID, b.Name, b.Date FROM Customers a, Sales b WHERE a.ID = b.ID;缺点:在上面语句中,实际上是创建了两张表的笛卡尔积,所有可能的组合都会被创建出来。在笛卡尔连接中,在上面的例子中,如果有1000顾客和1000条销售记录,这个查询会先产生100
2017-08-11 16:58:39 404
原创 mysql创建时间维度的sql脚本
mysql创建时间维度sql脚本 其中d0是开始时间,d1是结束时间 T是万能的表,只需满足T表的记录数量大于所插入的时间行数即可.# time span SET @d0 = "2014-01-01"; SET @d1 = "2016-12-31"; SET @date = date_sub(@d0, interval 1 day); # set up the time dim
2017-07-19 17:05:48 843
转载 数据仓库中缓慢变化维的总结
此文转载地址关于数据仓库中缓慢变化维的总结首先说一下概念,缓慢变化维(Slowly Changing Dimensions)指的是:维度表里面的数据并非是始终不变的,总会随着时间发生变化:假设我们有一张我们公司的销售员维度表如下,记录了每个销售员的一些基本信息,那么随着时间的变化销售员可能会在各省公司间调岗,如将周杰伦调入北京分公司,针对这种变化,业务系统会直接将业
2017-07-14 16:29:42 888
转载 Java线程同步:synchronized锁住的是代码还是对象
此文章是转载自大牛博客,原文地址http://blog.csdn.net/xiao__gui/article/details/8188833在Java中,synchronized关键字是用来控制线程同步的,就是在多线程的环境下,控制synchronized代码段不被多个线程同时执行。synchronized既可以加在一段代码上,也可以加在方法上。关键是,不要认为给方法或者代码段加上sy
2017-07-04 11:00:19 286
原创 Java中ArrayList集合中subList方法注意事项
Queue接口中方法简单介绍:添加元素 offer add 比offer多抛出一个IllegaISlabEepeplian异常返回并删除头部元素 poll remove 若头部为空,抛出异常返回头部元素 peek element 若头部为空,抛出异常
2017-06-30 14:53:12 596
转载 Java集合类的UML类图
此博客是从大牛博客中转载过来的,原博客地址http://blog.csdn.net/vking_wang/article/details/16965853网上能搜到很多Java集合类的类图,但是感觉都不是非常明晰。于是自己绘制了一份。
2017-06-28 13:39:49 641
转载 Java线程的5种状态及状态之间转换
Java中的线程的生命周期大体可分为5种状态。1. 新建(NEW):新创建了一个线程对象。2. 可运行(RUNNABLE):线程对象创建后,其他线程(比如main线程)调用了该对象的start()方法。该状态的线程位于可运行线程池中,等待被线程调度选中,获取cpu 的使用权 。3. 运行(RUNNING):可运行状态(runnable)的线程获得了cpu 时间片(times
2017-06-26 16:18:23 15789 5
原创 JDK动态代理Demo
JDK动态代理Demo需要几样东西:被代理类被代理类实现的接口代理类测试类被代理类实现的接口package java_jdk_proxy;public interface Person { public void say(); public void eat();}被代理类package java_jdk_proxy;public class PersonImpl imp
2017-06-23 17:20:35 408
转载 java线程池实现原理
本文转载自大神博客,仅作备份.转载地址:http://blog.csdn.net/hzw19920329/article/details/52372348 最近在看Java线程池实现方面的源码,在此做个小结,因为网上关于线程池源码分析的博客挺多的,我也不打算重复造轮子啦,仅仅用纯语言描述的方式做做总结啦! 个人认为要想理解清楚java线程池实现原理,明白下面
2017-06-23 14:10:33 317
转载 Java集合类详解
Collection├List│├LinkedList│├ArrayList│└Vector│ └Stack└SetMap├Hashtable├HashMap└WeakHashMapCollection接口 Collection是最基本的集合接口,一个Collection代表一组Object,即Collection的元素(Elements)。一
2017-06-22 14:35:18 258
转载 java8新特性 (λ、stream 与 默认接口方法)
1.lambdaλ表达式本质上是一个匿名方法,用来方便地实现函数接口。也就是说,λ表达式主要用于替换以前广泛使用的内部匿名类。 让我们来看下面这个例子: public int add(int x, int y) { return x + y; }转成λ表达式后是这个样子: (int x, int y) -> x + y;参数类型也可以省略,Java编
2017-06-09 20:27:08 513
原创 Java中创建枚举并赋初值
枚举在内部其实都是数值,如果只申明枚举而不赋值,是不安全的.public enum TableType { TABLE, VIEW;}就像上面这样,创建后,并且保存到数据库里.如果后期再添加一个新的,如果添加到了TABLE, VIEW;的中间比如TABLE,OTHER, VIEW;,那么致命问题就来了,VIEW的值就变了,酿成大错~~~ so,用到枚举的时候,最好给枚举赋初值.就不会出
2017-04-18 11:06:50 44033
转载 java 根据实体对象生成 增删改的SQL语句 ModelToSQL
原文链接在参考原文链接的代码后,发现有一处小错误,就是update 的set 两个条件之间差 逗号,于是乎自己小小的修改了下,并且加了部分代码的注释,最终代码如下:package com.xxx.utils;import java.lang.reflect.Field;import java.lang.reflect.Modifier;import java.util.List;import
2017-04-12 15:58:00 6394
原创 注解方式实现aop权限管理
一个切面类,一个自定义注解接口自定义注解接口:@Target({ElementType.METHOD})@Retention(RetentionPolicy.RUNTIME)@Documented@Inheritedpublic @interface LoginAnnotation {}切面类:@Aspect//切面类@Configuration //springboot配置类publi
2017-04-01 10:30:04 510
转载 【spring-boot】spring aop 面向切面编程初接触
众所周知,spring最核心的两个功能是aop和ioc,即面向切面,控制反转。这里我们探讨一下如何使用spring aop。1.何为aop aop全称Aspect Oriented Programming,面向切面,AOP主要实现的目的是针对业务处理过程中的切面进行提取,它所面对的是处理过程中的某个步骤或阶段,以获得逻辑过程中各部分之间低耦合性的隔离效果。其与设计模式完成的任务差不多,是
2017-04-01 10:13:35 1194
原创 SpringBoot+SpringDataJpa后台常用注解
SpringDataJpa中sqlite的时间格式必须为'2017-03-23 09:10:29.100' 否则报错com.controller@RestController 表示该类是controller层 //@RestController注解相当于@ResponseBody + @Controller合在一起的作用。@RequestMapping("/") 请求路径
2017-03-23 09:36:37 980
Spark快速大数据分析中文版PDF(带书签+笔记)
2018-03-26
程序员跳槽全攻略
2018-01-18
Hadoop应用开发技术详解pdf完整版1-12章全含代码
2016-12-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人