Ricky_Huo
码龄9年
求更新 关注
提问 私信
  • 博客:561,873
    社区:1
    561,874
    总访问量
  • 48
    原创
  • 77
    粉丝
  • 6
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2016-04-20

个人简介:曾经是个全栈,立志于不做全栈

博客简介:

Ricky点滴

博客描述:
故不积跬步无以至千里,不积小流无以成江河。
查看详细资料
个人成就
  • 获得76次点赞
  • 内容获得71次评论
  • 获得241次收藏
  • 代码片获得282次分享
  • 博客总排名844,965名
创作历程
  • 4篇
    2020年
  • 5篇
    2019年
  • 15篇
    2018年
  • 9篇
    2017年
  • 17篇
    2016年
成就勋章
TA的专栏
  • Python
    13篇
  • Django
    4篇
  • Git
    3篇
  • Spark
    13篇
  • 其他
    3篇
  • Linux
    4篇
  • Elastic
    9篇
  • Java
    3篇
  • Scala
    3篇
  • Prometheus
    2篇
  • Hangout
    3篇
  • Clickhouse
    5篇
  • Zookeeper
    1篇
  • Kafka
  • Flume
    1篇
  • Golang
    1篇
  • Waterdrop
    6篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

75人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

[Leetcode-66]Python-Plus One-三行代码

Overview给定一个非负整数组成的非空数组,在该数的基础上加一,返回一个新的数组。最高位数字存放在数组的首位, 数组中每个元素只存储一个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。示例 1:输入: [1,2,3]输出: [1,2,4]解释: 输入数组表示数字 123。示例 2:输入: [4,3,2,1]输出: [4,3,2,2]解释: ...
原创
博文更新于 2018.08.04 ·
348 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Git版本管理简单使用

Git 版本管理安装 yum install git //建议安装版本>1.8简易的命令行入门教程Git全局设置:git config --global user.name "huochen"git config --global user.email "shixi_hucohen@staff.mail.sina.com"//配置git当前用户信息创建git仓库:mkdir test
原创
博文更新于 2020.11.17 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

如何用Spark实现一个通用大数据引擎

Github 上的开源项目 Waterdrop,此项目Star + Fork的有将近1200人,是一个基于Spark和Flink构建的生产环境的海量数据计算产品。Waterdrop的特性包括简单易用,灵活配置,无需开发;同时支持流式和离线处理;模块化和插件化,易于扩展;支持利用SQL做数据处理和聚合;支持选择Spark或Flink作为底层引擎层。作为 Spark 或者 Flink 的开发者,你是否也曾经想过要打造这样一款通用的计算引擎,是是否曾经有这样的疑问,Waterdrop为什么能实现这
原创
博文更新于 2020.06.03 ·
997 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

怎么在MacOS上使用sbt发布代码到Maven中央仓库

怎么在MacOS上使用sbt发布代码到Maven中央仓库在项目中集成sonatype这一部分不是本篇文章的重点,在项目集成sonatype可参照https://github.com/xerial/sbt-sonatype配置上传代码1. 安装gpg并生成密钥brew install gpggpg --gen-key# 输入用户名,邮箱和密码gpg --list-keypub ...
原创
博文更新于 2020.05.20 ·
693 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

从Flink上谈当今实时流处理

0. 序 在当前数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问题。但随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性,企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。相对于传统的数据处理模式,流式数据处理则有着更高的处理效率和成本控制。Apach...
原创
博文更新于 2020.04.27 ·
1138 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Golang Benchmark Test

内部程序是CPU密集型计算,因此编写了 Benchmark 测试算子的性能,并且希望在此基础上,将 Benchmark 在各服务器上执行,验证服务器性能情况。Benchmark 编译go test -c -test.bench=".*" ./filter/执行后将在本地生成 filter.testBenchmark 运行首先在目标服务器上将编译好的二进制文件拉取到本地。./...
原创
博文更新于 2020.04.24 ·
864 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Dataset 使用填坑记录

Dataset 使用填坑记录Dataset被誉为懒人数据库(databases for lazy people),是Python操作MySQL的库。因为其简单的操作,避开了繁琐的依赖安装和链接建立,能够很快的和数据库进行交互。但是在使用过程中,遇到了不少的坑,这篇文章旨在记录使用过程中遇到的坑,避免下次再犯浪费时间。连接不释放使用Dataset连接MySQL,连接不会主动释放,这样会导致表结...
原创
博文更新于 2020.04.11 ·
646 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Elasticsearch深度分页问题以及Scroll查询的一些总结

背景介绍我们在 Elasticsearch API的基础上实现了一个日志查询系统,支持最基本的时间范围选择以及关键词搜索高亮,并且日志展示的表格支持异步分页。有天用户反馈,查询的时候页面报错Result window is too large, from + size must be less than or equal to: [10000] but was [24600]. See th...
原创
博文更新于 2020.01.09 ·
1342 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Waterdrop推动Spark Structured Streaming走向生产环境

前言StructuredStreaming是Spark 2.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点:它能做到更低的延迟;可以做实时的聚合,例如实时计算每天每个商品的销售总额;可以做流与流之间的关联,例如计算广告的点击率,需要将广告的曝光记录和点击记录关联。以上几点如果使用SparkStreaming来实现可能会比较麻烦或者说是很难实现,但是使...
原创
博文更新于 2019.04.16 ·
1204 阅读 ·
0 点赞 ·
6 评论 ·
5 收藏

ClickHouse JDBC插入性能测试(基于Hangout)

ClickHouse Format Performance TEST of JDBC前言Hangout-output-Clickhouse目前支持3种形式的数据插入,Values、JSONEachRow以及TabSeparated。这三种方式最终插入SQL如下Valuesinsert into db.table (date, datetime, domian, uri,...
原创
博文更新于 2019.04.10 ·
23310 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

ElasticSearch pinyin分词支持多音字

ElasticSearch pinyin分词支持多音字背景我们有一个搜索业务底层采用ElasticSearch作为搜索引擎,在索引的过程中,使用了ik中文分词、拼音分词、同义词等多种分词器。ES和各种插件的组合已经能满足我们线上90%的需求,但是仍有部分需求无法覆盖,我们在拼音分词的时候过程中就遇到了无法解决的问题。比如在 三一重工 中,一重 这个词在拼音词库 polyphone.txt 中...
原创
博文更新于 2019.03.28 ·
4116 阅读 ·
7 点赞 ·
2 评论 ·
12 收藏

如何使用Spark快速将数据写入Elasticsearch

如何使用Spark快速将数据写入Elasticsearch说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有所长,Logstash肯定也有它无法适用的应用场景,比如:海量数据ETL海量数据聚合多源数据处理为了满足这些场景,很多同学都会选择Spark,借助Spark算子进行数据...
原创
博文更新于 2019.02.28 ·
9507 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析

优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势。直接使用 TiSpark 完成 O...
原创
博文更新于 2019.02.18 ·
1672 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Gitlab CI集成工具的应用

Gitlab CI集成工具的应用什么是Gitlab CI工具Continuous Integration is a software development practice in which you build and test software every time a developer pushes code to the application, and it happens s...
原创
博文更新于 2019.01.10 ·
4677 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何快速地把HDFS中的数据导入ClickHouse

如何快速地把HDFS中的数据导入ClickHouseClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在Kafka中,我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickH...
原创
博文更新于 2018.11.28 ·
19519 阅读 ·
5 点赞 ·
0 评论 ·
29 收藏

如何快速地将Hive中的数据导入ClickHouse

如何快速地将Hive中的数据导入ClickHouseClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。在之前的文章如何快速地把HDFS中的数据导入ClickHouse中我们提到过使用Waterdrop——https://github.com/InterestingL...
原创
博文更新于 2018.11.28 ·
14149 阅读 ·
3 点赞 ·
3 评论 ·
37 收藏

Hangout with ClickHouse

当我们部门发现了ClickHouse这么一个优秀数据存储仓库后,经过了一段时间的摸索测试,就把线上大部分与数据分析相关的业务迁移到了ClickHouse上。这篇文章将会介绍我们如何通过Kafka接入Nginx日志到ClickHouse中。当然,其他的应用日志也可以参照以下逻辑将数据接入ClickHouse。我们最初使用Python脚本清洗日志写入ClickHouse,但是这样开发和维护都有一定的成本
原创
博文更新于 2018.09.09 ·
13632 阅读 ·
0 点赞 ·
2 评论 ·
7 收藏

[Leetcode-228]Python-Summary-Ranges-滑动窗口

Overview给定一个无重复元素的有序整数数组,返回数组区间范围的汇总。。示例 1:输入: [0,1,2,4,5,7]输出: ["0->2","4->5","7"]解释: 0,1,2 可组成一个连续的区间; 4,5 可组成一个连续的区间。示例 2:输入: [0,2,3,4,6,8,9]输出: ["0","2->4","6&
原创
博文更新于 2018.08.14 ·
440 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Elasticsearch 6.3 X-PACK SQL Overview

Elasticsearch 6.3 X-PACK SQL Overview Elasticsearch SQL aims to provide a powerful yet lightweight SQL interface to Elasticsearch写在前面 However the backing engine itself is Elasticsearch fo...
原创
博文更新于 2018.08.08 ·
4978 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Elasticsearch Rolling up historical data Overview

Elasticsearch Rolling up historical dataOverview And while we continue to believe that most data tends to have value over a long period of time, the relative value of the data can decrease as ...
原创
博文更新于 2018.08.08 ·
1282 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多