自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (3)
  • 收藏
  • 关注

原创 kudu查询调优

问题描述kudu集群在导入大量历史数据之后,在Impala/kudu上查询变慢,之前集群查询的时间基本上在2秒左右,但是现在查询时间延长到80秒到90秒左右。这个查询时间对于任何应用都是无法忍受的。问题定位通过CDH的CM上的Impala组件中的SQL语句统计信息发现,SQL查询时间主要FragmentF00阶段的5号节点KUDU扫表,其余几个节点查询扫描时间正常。1.首先比较各个节点之间的数据扫描记录,确定是否存在数据倾斜问题。通过比较几个节点之间的扫描记录的大小,发现各个几点扫描的记

2020-12-19 21:15:13 2210 1

原创 java锁机制

java锁机制概念java对象头MarkwordJava对象存储在堆(Heap)内存。那么一个Java对象到底包含什么呢?概括起来分为对象头、对象体和对齐字节。如下图所示:对象的几个部分的作用:1.对象头中的Mark Word(标记字)主要用来表示对象的线程锁状态,次要用途是配合GC、存放hashCode;2.Klass Word是一个指向方法区中Class信息的指针,意味着该对象可...

2019-08-10 16:36:43 508

原创 python3 安装pandas ModuleNotFoundError: No module named bz2

解决:ModuleNotFoundError: No module named bz2ModuleNotFoundError: No module named ‘_lzma’1、在操作系统中安装zlib和bz2相关库yum install zlib zlib-develyum -y install bzip2 bzip2-devel ncurses openssl openssl-de...

2019-07-26 08:39:17 7653

原创 pandas DataFrame行列转置

import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(6).reshape(2,3),index=("AA","BB"),columns=["three","two","one"])print(df) three two oneAA 0 1 2BB 3 4 ...

2019-07-06 15:24:32 36673 2

原创 Java对String类型的时间进行加减操作

String time = "2018-08-04 02:30:00";SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); Calendar calendar = Calendar.getInstance();try { calendar.setTime(df.parse(time))...

2019-06-20 20:03:46 4720

转载 Spring框架介绍

Spring框架—控制反转(IOC)1 Spring框架概述1.1 什么是SpringSpring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要...

2019-02-25 09:48:48 193

原创 PySpark中的UDFs函数

我们在用python原生的函数来处理迭代我们的数据,但是我们发现在处理一个比较大的dataframe可能会花费我们很久的时间。所以如果我们拥有一个集群,那么如何在集群上通过Pyspark来加速我们的处理速度呢?换句话说我们如何将python函数转化成Spark的用户自定义函数(UDF)呢?注册一个UDFPyspark UDFs跟pandas的series和dataframes的.map...

2019-02-02 11:41:26 4369

原创 spark streaming与kafka整合

Spark 2.2和2.3支持0.8和0.10两种Kafka API,而且0.8版本的API可以和Kafka Broker 0.9 及0.10兼容,但0.10版本的API不能与Kakka 0.8兼容。两个版本Kafka API的功能对比如下:由此可知,相对于0.8版本,Kafka API 0.10版本的主要变化在于:1)只支持Direct DStream 的连接模式,基于Receive...

2019-01-30 09:07:49 670

原创 Spark Streaming Kafka

Spark Streaming 可以⽀持多种数据源,但目前最常用的还是 Kafka 作为数据源。Spark Streaming的kafka编程主要包括两种模型1.基于Receiver模式2.Direct(无Receiver)模式 基于Receiver (spark-streaming-kafka-0-10以上已不支持)这种方式利用接收器(Receiver)来接收kafk...

2019-01-16 10:50:56 322

原创 Kafka offset管理

Kafka offset管理消费者在消费的过程中需要记录自己消费了多少数据,即消费 Offset。Kafka Offset 是Consumer Position,与 Broker 和 Producer 都无关。每个 Consumer Group、每个 Topic 的每个Partition 都有各自的 Offset,如下图所示。通常由如下几种 Kafka Offset 的管理方式:S...

2019-01-10 09:40:37 6042

转载 Java应用线上故障排除

线上运行的Java应用突然没有响应、响应缓慢,进程突然消失,遇到这些情况应该如何应对呢?今天教大家如何应对在线故障!  转载于:原文地址:http://www.rowkey.me/blog/2018/11/22/online-debug...

2019-01-01 09:21:37 272

原创 远程IDE无法连接kudu

客户端测试kudu出错Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure:Lost task 0.0 in stage 2.0 (TID 67,...

2018-12-28 14:21:49 3195

原创 通过jupyter远程连接CDH(pyspark)

1. 在CDH上安装Anaconda Parcel(离线或者远程安装anaconda parcel)下载Anaconda Parcels,下载符合自己的版本及其sha文件将下载好的文件上传至你的CDH parcels库,一般位置在 /opt/cloudera/parcel-repo进入CDH管理界面,进行相关配置!配置界面刷新之后就能够看到Anaconda已下载成功。然后分发...

2018-12-12 15:58:53 1640

原创 RPC远程调用

客户端通过定义接口,通过动态代理的方式向服务端请求运行结果,服务端通过解析字符串,来解析所要调用接口、方法、参数,并将接口实现的结果通过Socket的方式返回给客户端。1.    服务端将接口通过map的方式映射成方法名和接口类,并启动socket连接。package server;public interface ServerCenter { public void st...

2018-11-19 16:32:10 200

原创 启动HIVE报错Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata

https://ask.hellobi.com/blog/bigdata/10251解决办法:[hadoop@master2 conf]$ schematool -dbType mysql -initSchema格式化mysql

2018-08-28 15:17:31 4810

原创 HBase对比HDFS

什么是HDFS(Hadoop分布式文件系统):HDFS允许以分布式和冗余方式存储大量数据。HDFS组件 • NameNode • DataNode NameNode:NameNode可以被视为系统的管理者。它维护系统文件树以及系统中存在的所有文件和目录的元数据。其中“命名空间镜像(Namespace image)”和“编辑日志”用于存储元数据信息。 Namenode包含所...

2018-08-24 16:12:39 21687 3

原创 Spark Streaming-Kafka实例(Python与Java版本)

本文实现kafka与Spark Streaming之间的通信,其中Kafka端producer实现使用Java,Spark Streaming端Consumer使用Python实现。首先安装kafka与spark streaming环境,kafka测试连通测试参考上文,本文的实验环境都为本地单机版本。Kafkaimport org.apache.kafka.clients.produc...

2018-08-17 11:18:42 967

原创 Angular路由拦截

对于未登入的用户,无法访问其他模块,当点击其他功能模块时跳转到登入界面在app-routing.modle.js中加入拦截const routes: Routes = [ { path: '**', component: ***, canActivate: [LoginGuard] } ]具体拦截功能实现import { Injectable ...

2018-08-01 19:48:20 5113

原创 quickfix协议实例

客户端 目录结构 log4j.properties#file name: log4j.propertiesapp.log.home=/wls/apache/applogs/Pagi_qerapp.name=PAGI-QERlog4j.appender.CONSOLE=org.apache.log4j.ConsoleAppenderlog4j.appender.CONSOL...

2018-08-01 14:51:51 4970

原创 量化交易学习笔记(一) ---- 量化交易基本名词概念

量化交易基本名词概念三大经典指标1.夏普比率(Shape Ratio),也称夏普指数,它指的是投资回报与风险的比例。夏普比率代表投资人每多承担一份风险,就可以拿到几份回报,若为正值,代表基金报酬率高于波动风险;若为负值,代表基金操作风险大于报酬率。比例越高,投资组合越佳。2.詹森指数(Jensen),又称为阿尔法值,是衡量基金超额收益大小的一种指标,这个指标综合考虑了基金收益与风险...

2018-06-16 16:43:40 5274

原创 matplotlib学习(二)

#image图片#image dataa = np.array([0.313660827978, 0.365348418405, 0.423733120134, 0.365348418405, 0.439599930621, 0.525083754405, 0.423733120134, 0.525083754405, 0.65153635

2018-01-13 15:23:06 374

原创 matplotlib库学习(一)

#matplotlib模块学习import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-5,5,50)y1 = 2*x + 1y2 = x**2#画一个直线plt.figure()plt.plot(x,y1)plt.show()#在同一个fig中画两条线plt.figure(num=3,figsize=(8,6

2018-01-10 20:25:01 407

原创 基于keras的深度学习——分类

使用keras的深度学习来分类白葡萄酒还是红葡萄酒首先介绍一下数据类型:1.这个数据集包含了1599种红酒,4898种白酒; 2.输入数据特征: 1 - fixed acidity 2 - volatile acidity 3 - citric acid 4 - residual sugar 5 - chlorides 6 - free s

2018-01-08 16:57:14 9641 3

原创 Pandas学习(二)

import pandas as pdimport numpy as np#处理丢失数据dates = pd.date_range('20180107',periods=6)df = pd.DataFrame(np.arange(24).reshape((6,4)),index = dates,columns=['A','B','C','D'])df.iloc[0,1] = np.nan

2018-01-07 22:40:34 484

原创 Panads学习(一)

import pandas as pdimport numpy as np#创建序列s = pd.Series([1,2,3,4,5,np.nan,22,33])print s0 1.01 2.02 3.03 4.04 5.05 NaN6 22.07 33.0dtype: float64#创建DataFr

2018-01-07 15:46:08 669

原创 numpy使用

import numpy as npA = np.array([1,1,1])B = np.array([2,2,2])#vertical stackC = np.vstack((A,B))print C[[1 1 1] [2 2 2]]#horizontal stackD = np.hstack((A,B))print D[1 1 1 2 2 2]#

2018-01-06 13:46:57 262

原创 Goolgle knowledge graph API使用

试了一下google的知识图谱API的使用,简单的整理了一下:第一步:安装google的google-api-python-client包 pip install –upgrade google-api-python-client第二步:创建API 在google的个人应用中心创建一个应用 https://console.developers.google.com/projectse

2017-12-12 16:27:10 4720 3

原创 EM算法之高斯混合模型(二)

EM参数求解我们将GMM带入θ(g+1)\theta^{(g+1)}中 θ(g+1)=argmaxθ∫zln{P(X,z|θ)P(z|X,θ(g))}dz(6.1)\theta^{(g+1)} = {argmax}_\theta\int_zln\left\{P(X,z|\theta)P(z|X,\theta^{(g)})\right\}dz \quad(6.1) 其中 P(Z|X,θ(g)

2017-11-23 17:26:53 306

原创 EM算法之高斯混合模型(一)

单个高斯模型如果我们有一堆数据,其分布属于一个高斯模型,那么有 p(X)=N(x|μ,Σ)=1(2π)m|Σ|‾‾‾‾‾‾‾‾√exp[−12(x−μ)TΣ−1(x−μ)](1.1)p(X) = N(x|\mu,\Sigma) = \frac1 {\sqrt{(2\pi)^m|\Sigma|}}exp[-\frac1 2(x-\mu)^T\Sigma^{-1}(x-\mu)] \quad(1.

2017-11-20 21:56:14 641

原创 Python编程小技巧(一直更新...)

python中的小技巧太多了,如果你会使用一些小技巧,有时候你的代码会非常简练,这边我会一直记录我在学习python过程中的一些小技巧。1.将tuple映射成listimport itertoolsnums = [1,2,3]print list(itertools.permutations(nums))#[(1,2,3),(1,3,2),(2,1,3),(2,3,1),(3,1,2),(3,

2017-11-16 20:34:06 232

原创 理解线性代数矩阵

孟岩的《理解矩阵》三篇:http://blog.csdn.net/myan/article/details/647511http://blog.csdn.net/myan/article/details/649018http://blog.csdn.net/myan/article/details/1865397两篇英文:https://betterexpl

2017-11-15 13:03:50 304

原创 pandas学习(三)

pandas模块的使用导入csv文件import pandas as pdfrom pandas import read_csvurl="https://goo.gl/vhm1eU"names = ['preg','plas','skin','test','mass','pedi','age','class']data = read_csv(url,names = name

2017-11-08 13:51:43 437

原创 逻辑斯蒂回归(对数几率回归)

逻辑斯蒂回归(对数几率回归)二元分类与Logistic回归逻辑斯蒂回归(周志华书中把他叫做对数几率回归)不是用于回归而是用于分类,是用来解决二分类的问题(Binary Classification)。以Andrew Ng课程中的例子为例,我们要训练出一个模型能够自动的判别照片中是否有猫。这里我们就可以将图片的向量化然后通过logistic回归进行分类。模型给定一张没有便签的图片,我们将其向量化,表示

2017-10-27 21:31:31 573

原创 修改mac系统下/etc/profile文件

Some paths and applications in El Capitan are protected by System Integrity Protection. Even root can't modify the files. You first have to disable SIP before editing or modifying them.Reboot

2017-08-11 16:35:05 19475

原创 leetcode刷题详解——Add Two Numbers(02)

题目地址:https://leetcode.com/problems/add-two-numbers/#/descriptionYou are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and ea

2017-06-29 14:49:44 367

转载 xgboost详解

版权声明:如需转载,请注明出处http://blog.csdn.net/a819825294目录(?)[-]序xgboost vs gbdt原理自定义损失函数指定gradhessXgboost调参工程实现优化代码走读pythonR对于xgboost的简单使用xgboost中比较重要的参数介绍Tip参考文献文章内容可能会相对比较多,读者可以点击

2017-06-08 15:55:05 732

原创 python中文列表输出

python 2.X版本的中文输出打印

2017-04-20 16:40:57 3034

原创 eclipse maven项目导出jar包时一起打包所依赖的相关jar包

我们在导出maven项目为jar包的时候,maven所依赖的jar包不在同一项目目录下,这时候我们要把所依赖的jar包一起copy到lib目录下。在maven项目下(包含pom.xml的文件夹),创建lib文件夹,输入以下命令:mvn dependency:copy-dependencies -DoutputDirectory=lib

2017-02-23 22:14:09 2929

转载 理解LSTM网络

原文:http://colah.github.io/posts/2015-08-Understanding-LSTMs/这篇文章将RNN的LSTM原理讲的比较浅显易懂,英文写的也比较好懂,先转载一下,有空翻译一下。Recurrent Neural NetworksHumans don’t start their thinking from scratch every secon

2016-08-16 15:04:26 881

原创 用gensim对中文维基百科语料上的word2Vec相似度计算实验

Word2vec 是Google在 2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2ve

2016-07-31 15:51:52 3862

Python大数据与量化交易

Python大数据与量化交易,分享给大家的同时也希望能够多交流一起学习Python

2018-06-09

swift视频课程

swift是苹果新开发的移动开发语言,是objectC的替代语言,掌握swift赢得未来!

2015-01-23

绿色_概念引导下的节能灯包装结构设计

绿色_概念引导下的节能灯包装结构设计论文。节能灯是当下最流行的研究热门。

2014-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除