cat__java的博客

生活不止眼前的苟且,还有以后的苟且...

scala编写spark报错java.lang.ArrayIndexOutOfBoundsException: 10582

当前环境:jdk1.8+scala1.2+spark2.4 <dependency> <groupId>org.apache.spark</groupId> &am...

2019-04-13 17:05:59

阅读数 48

评论数 0

java nosuchmethoderror解决办法

设置Main类启动参数 VM options:-verbose:class 输出jvm载入类的相关信息,当jvm报告说找不到类或者类冲突时可此进行诊断。 有关jvm设置参数,见另一篇博客,更详细的说明。 地址:jvm启动参数设置 ...

2019-03-04 20:02:07

阅读数 24

评论数 0

【转】JAVA JVM启动参数

java启动参数共分为三类: 标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容; 非标准参数(-X),默认jvm实现这些参数的功能,但是并不保证所有jvm实现都满足,且不保证向后兼容; 非Stable参数(-XX),此类参数各个jvm实现会有所不同,将来可能会随时取消,需...

2019-03-04 19:58:11

阅读数 37

评论数 0

docker timeout 解决办法

docker timeout 解决办法. # 配置代理,此处为阿里云的镜像,可选其他的. { "registry-mirrors": [ "https://khec465u.mirror.aliyuncs.com"...

2018-10-26 20:08:55

阅读数 1414

评论数 0

PySpark的实现原理

PySpark实现了Spark对于Python的API, 通过它,用户可以编写运行在Spark之上的Python程序, 从而利用到Spark分布式计算的特点。 基本流程 PySpark的整体架构图如下, 可以看到Pyth...

2018-04-28 13:55:14

阅读数 78

评论数 0

Hadoop,Zookeeper,Hbase,Hive,Spark,Kafka,CDH中webui常用端口

Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 ...

2018-04-27 15:13:45

阅读数 530

评论数 0

jupyter中使用pyspark连接spark集群

目标:此文在jupyter中配置pyspark,并非配置pyspark的内核,而是希望在python3的内核下,使用pyspark连接spark集群. 准备:spark单机版 , jupyter notebook ,且两者不在同一机子上 1.安装 在默认的jupyter notebook...

2018-04-27 14:05:56

阅读数 2895

评论数 0

Spark中DataFrame与Pandas中DataFrame的区别

出处:http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶...

2018-04-20 15:36:26

阅读数 1052

评论数 0

数据库事物特性和事物隔离级别

A Atomicity 原子 C Consistency一致 I Isolation 隔离 D Durability 持久 事物并发现象: 1. 脏读(读到了未提交的内容) 2. 不可重复读 (读不回去) 3.幻读 (多读了) 为了解决以上现象,设置事物的隔离级别: 1....

2018-02-03 22:49:53

阅读数 108

评论数 0

linux修改/etc/profile出错command not found解决办法

linux修改/etc/profile出错导致所有命令都command not found的解决办法 执行命令 export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin 因为基本所有的shell命令都包含在上面几个目录中, 执行完...

2018-01-23 09:54:51

阅读数 1639

评论数 1

Hadoop中DataNode没有启动解决办法

查看从节点机器hadoop中datanode的log文件 , 拉到最后 , 报错如下2017-11-22 13:51:17,114 WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatibl...

2017-11-22 15:56:38

阅读数 8015

评论数 1

linux中java -version与etc/profile配置的java版本不一样解决办法

linux中java -version与etc/profile配置的java版本不一样解决办法 使用which java 查看当前java路径 显示 /usr/bin/java解决办法: rm -rf /usr/bin/java rm -rf /usr/bin/javac前提保证JAVA_H...

2017-11-22 15:47:16

阅读数 743

评论数 0

ORACLE设置表ID自增

1、创建表 create table note( id number(20) NOT NULL primary key,/*主键,自动增加*/ name varchar2(20)); 12 2、创建自动增长序列 Create Sequence addAuto...

2017-10-26 10:54:51

阅读数 368

评论数 0

构建数据仓库的基本步骤

确定主题 确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况. 主题要体现出某一方面的各个分析维度和统计量度之间的关系. 确定度量 度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值 确定分析粒度 采用”最小粒度原则”来满足度量的不同聚合...

2017-10-05 15:48:42

阅读数 3537

评论数 0

python爬取拉勾网数据保存到mysql数据库

环境:python3 相关包:requests , json , pymysql 思路:1.通过chrome F12找到拉钩请求接口,分析request的各项参数 2.模拟浏览器请求拉钩接口 3.默认返回的json不是标准格式 , 对返回的json数据进行处理转换为标准格...

2017-10-05 10:47:32

阅读数 923

评论数 0

SQL Developer 配置

SQL Developer是免费的,当你不能得到Toad, PL/SQL Developer的License。它是个很好的选择。他也提供了非常强大的功能。这篇文章介绍一些配置,让SQL Developer用起来更方便。这些都可以在“工具”-->"选项"(Tools , P...

2017-09-06 15:45:22

阅读数 830

评论数 0

Python爬取虎扑步行街,爆照区中的照片

使用的是Python3+reqeusts 源码如下 #encoding:gbk import requests import re import time def get_pages(url):#拼凑每一页的url pages = [] for i in range(1,50...

2017-08-19 17:59:59

阅读数 1232

评论数 1

Python高阶函数

#coding: gbk ''' Created on 2017年8月13日@author: Administrator ''' from builtins import str from _functools import reduce from _ast import Str from _sr...

2017-08-13 12:50:05

阅读数 179

评论数 0

Python基础

# coding=gbk from pip._vendor.pyparsing import Each movies = ["The Holy Grail","The Life of Brain","The Meaning of Life"...

2017-08-11 23:16:37

阅读数 163

评论数 0

数据库多表查询之 where & INNER JOIN

在多表查询中,一些SQL开发人员更喜欢使用WHERE来做join,比如: SELECT a.ID, b.Name, b.Date FROM Customers a, Sales b WHERE a.ID = b.ID; 缺点:在上面语句中,实际上是创建了两张表的笛卡尔积,所有可能的组合都会被创...

2017-08-11 16:58:39

阅读数 235

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭