hadoove
码龄11年
关注
提问 私信
  • 博客:255,436
    255,436
    总访问量
  • 47
    原创
  • 2,037,993
    排名
  • 73
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2014-02-28
博客简介:

擦玻璃的程序员专栏

查看详细资料
个人成就
  • 获得98次点赞
  • 内容获得21次评论
  • 获得388次收藏
  • 代码片获得231次分享
创作历程
  • 1篇
    2020年
  • 10篇
    2019年
  • 15篇
    2018年
  • 12篇
    2017年
  • 6篇
    2016年
  • 18篇
    2015年
成就勋章
TA的专栏
  • 大数据
    6篇
  • 杂文
    1篇
  • 算法
    7篇
  • C/C++程序
    2篇
  • 程序安装
    1篇
  • 图像处理
    1篇
  • NoSql
    1篇
  • python
    14篇
  • deep learning
    11篇
  • java
    6篇
  • 知识图谱
    2篇
  • 错误解决
  • java 爬虫
    1篇
  • 自然语言处理
    2篇
  • RNN
    1篇
  • 线新代数
    1篇
  • em算法
    2篇
  • 混合高斯模型
    2篇
  • pandas
    1篇
  • 数据处理
    3篇
  • 数据可视化
    1篇
  • 量化交易
    1篇
  • 大数据
    8篇
  • 架构
    1篇
  • RPC
  • error
    2篇
  • kudu
    1篇
  • 运维
    1篇
  • kafka
    2篇
  • spark streaming
    2篇
  • PySpark
    1篇
  • Spark
  • DataFrame
    1篇
兴趣领域 设置
  • 大数据
    hadoopstormspark
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

kudu查询调优

问题描述kudu集群在导入大量历史数据之后,在Impala/kudu上查询变慢,之前集群查询的时间基本上在2秒左右,但是现在查询时间延长到80秒到90秒左右。这个查询时间对于任何应用都是无法忍受的。问题定位通过CDH的CM上的Impala组件中的SQL语句统计信息发现,SQL查询时间主要FragmentF00阶段的5号节点KUDU扫表,其余几个节点查询扫描时间正常。1.首先比较各个节点之间的数据扫描记录,确定是否存在数据倾斜问题。通过比较几个节点之间的扫描记录的大小,发现各个几点扫描的记
原创
发布博客 2020.12.19 ·
2320 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

java锁机制

java锁机制概念java对象头MarkwordJava对象存储在堆(Heap)内存。那么一个Java对象到底包含什么呢?概括起来分为对象头、对象体和对齐字节。如下图所示:对象的几个部分的作用:1.对象头中的Mark Word(标记字)主要用来表示对象的线程锁状态,次要用途是配合GC、存放hashCode;2.Klass Word是一个指向方法区中Class信息的指针,意味着该对象可...
原创
发布博客 2019.08.10 ·
581 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python3 安装pandas ModuleNotFoundError: No module named bz2

解决:ModuleNotFoundError: No module named bz2ModuleNotFoundError: No module named ‘_lzma’1、在操作系统中安装zlib和bz2相关库yum install zlib zlib-develyum -y install bzip2 bzip2-devel ncurses openssl openssl-de...
原创
发布博客 2019.07.26 ·
7731 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

pandas DataFrame行列转置

import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(6).reshape(2,3),index=("AA","BB"),columns=["three","two","one"])print(df) three two oneAA 0 1 2BB 3 4 ...
原创
发布博客 2019.07.06 ·
36949 阅读 ·
14 点赞 ·
2 评论 ·
64 收藏

Java对String类型的时间进行加减操作

String time = "2018-08-04 02:30:00";SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); Calendar calendar = Calendar.getInstance();try { calendar.setTime(df.parse(time))...
原创
发布博客 2019.06.20 ·
4834 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spring框架介绍

Spring框架—控制反转(IOC)1 Spring框架概述1.1 什么是SpringSpring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要...
转载
发布博客 2019.02.25 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

PySpark中的UDFs函数

我们在用python原生的函数来处理迭代我们的数据,但是我们发现在处理一个比较大的dataframe可能会花费我们很久的时间。所以如果我们拥有一个集群,那么如何在集群上通过Pyspark来加速我们的处理速度呢?换句话说我们如何将python函数转化成Spark的用户自定义函数(UDF)呢?注册一个UDFPyspark UDFs跟pandas的series和dataframes的.map...
原创
发布博客 2019.02.02 ·
4438 阅读 ·
0 点赞 ·
0 评论 ·
12 收藏

spark streaming与kafka整合

Spark 2.2和2.3支持0.8和0.10两种Kafka API,而且0.8版本的API可以和Kafka Broker 0.9 及0.10兼容,但0.10版本的API不能与Kakka 0.8兼容。两个版本Kafka API的功能对比如下:由此可知,相对于0.8版本,Kafka API 0.10版本的主要变化在于:1)只支持Direct DStream 的连接模式,基于Receive...
原创
发布博客 2019.01.30 ·
707 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spark Streaming Kafka

Spark Streaming 可以⽀持多种数据源,但目前最常用的还是 Kafka 作为数据源。Spark Streaming的kafka编程主要包括两种模型1.基于Receiver模式2.Direct(无Receiver)模式 基于Receiver (spark-streaming-kafka-0-10以上已不支持)这种方式利用接收器(Receiver)来接收kafk...
原创
发布博客 2019.01.16 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka offset管理

Kafka offset管理消费者在消费的过程中需要记录自己消费了多少数据,即消费 Offset。Kafka Offset 是Consumer Position,与 Broker 和 Producer 都无关。每个 Consumer Group、每个 Topic 的每个Partition 都有各自的 Offset,如下图所示。通常由如下几种 Kafka Offset 的管理方式:S...
原创
发布博客 2019.01.10 ·
6093 阅读 ·
3 点赞 ·
0 评论 ·
20 收藏

Java应用线上故障排除

线上运行的Java应用突然没有响应、响应缓慢,进程突然消失,遇到这些情况应该如何应对呢?今天教大家如何应对在线故障!  转载于:原文地址:http://www.rowkey.me/blog/2018/11/22/online-debug...
转载
发布博客 2019.01.01 ·
298 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

远程IDE无法连接kudu

客户端测试kudu出错Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure:Lost task 0.0 in stage 2.0 (TID 67,...
原创
发布博客 2018.12.28 ·
3255 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

通过jupyter远程连接CDH(pyspark)

1. 在CDH上安装Anaconda Parcel(离线或者远程安装anaconda parcel)下载Anaconda Parcels,下载符合自己的版本及其sha文件将下载好的文件上传至你的CDH parcels库,一般位置在 /opt/cloudera/parcel-repo进入CDH管理界面,进行相关配置!配置界面刷新之后就能够看到Anaconda已下载成功。然后分发...
原创
发布博客 2018.12.12 ·
1697 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

RPC远程调用

客户端通过定义接口,通过动态代理的方式向服务端请求运行结果,服务端通过解析字符串,来解析所要调用接口、方法、参数,并将接口实现的结果通过Socket的方式返回给客户端。1.    服务端将接口通过map的方式映射成方法名和接口类,并启动socket连接。package server;public interface ServerCenter { public void st...
原创
发布博客 2018.11.19 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

启动HIVE报错Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata

https://ask.hellobi.com/blog/bigdata/10251解决办法:[hadoop@master2 conf]$ schematool -dbType mysql -initSchema格式化mysql
原创
发布博客 2018.08.28 ·
4861 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase对比HDFS

什么是HDFS(Hadoop分布式文件系统):HDFS允许以分布式和冗余方式存储大量数据。HDFS组件 • NameNode • DataNode NameNode:NameNode可以被视为系统的管理者。它维护系统文件树以及系统中存在的所有文件和目录的元数据。其中“命名空间镜像(Namespace image)”和“编辑日志”用于存储元数据信息。 Namenode包含所...
原创
发布博客 2018.08.24 ·
21962 阅读 ·
13 点赞 ·
3 评论 ·
65 收藏

Spark Streaming-Kafka实例(Python与Java版本)

本文实现kafka与Spark Streaming之间的通信,其中Kafka端producer实现使用Java,Spark Streaming端Consumer使用Python实现。首先安装kafka与spark streaming环境,kafka测试连通测试参考上文,本文的实验环境都为本地单机版本。Kafkaimport org.apache.kafka.clients.produc...
原创
发布博客 2018.08.17 ·
1011 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Angular路由拦截

对于未登入的用户,无法访问其他模块,当点击其他功能模块时跳转到登入界面在app-routing.modle.js中加入拦截const routes: Routes = [ { path: '**', component: ***, canActivate: [LoginGuard] } ]具体拦截功能实现import { Injectable ...
原创
发布博客 2018.08.01 ·
5199 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

quickfix协议实例

客户端 目录结构 log4j.properties#file name: log4j.propertiesapp.log.home=/wls/apache/applogs/Pagi_qerapp.name=PAGI-QERlog4j.appender.CONSOLE=org.apache.log4j.ConsoleAppenderlog4j.appender.CONSOL...
原创
发布博客 2018.08.01 ·
5046 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

量化交易学习笔记(一) ---- 量化交易基本名词概念

量化交易基本名词概念三大经典指标1.夏普比率(Shape Ratio),也称夏普指数,它指的是投资回报与风险的比例。夏普比率代表投资人每多承担一份风险,就可以拿到几份回报,若为正值,代表基金报酬率高于波动风险;若为负值,代表基金操作风险大于报酬率。比例越高,投资组合越佳。2.詹森指数(Jensen),又称为阿尔法值,是衡量基金超额收益大小的一种指标,这个指标综合考虑了基金收益与风险...
原创
发布博客 2018.06.16 ·
5588 阅读 ·
5 点赞 ·
0 评论 ·
35 收藏
加载更多