2015年12月_breeze_lsw

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 kafka集群扩容(Topic迁移)

文章新地址文章开始前推荐使用 kafka-manager 工具，可以实时查看kafka同步状态，broker实时读写流量，topic分区情况等信息，提供重选最优leader等操作。kafka的集群扩容实际上就是把 topic 的 partition 移动到新加的集群上。生成 topic 移动 json文件有两种方式:通过 --topics-to-move-json-file 和 --bro

2015-12-30 10:56:56 11282 2

原创 sparkSQL中UDF的使用

在spark中使用sql时可能会想自定义一些函数，可以使 udf 来实现，下面举了几个简单易懂的例子。

2015-12-24 23:33:05 6367 2

原创 Hexo 主题使用进阶

新博客地址更换为next主题进入hexo站点文件夹cd your-hexo-siteclone Next代码并存放到 themes/next 目录下git clone https://github.com/iissnan/hexo-theme-next themes/next在站点 _config.yml 中修改:theme: nextNext 主题拥有”题中题”，可以在主题的 _config

2015-12-15 23:52:59 15669 3

新博客地址spreespree从spark web ui中获取正在运行的任务状态，从history server中获取已经运行结束的状态信息并将这些数据写入MongoDB，可以实现动态任务更新。因为把运行日志进行了聚合，可以再也不用ssh端口转发了TAT，直接把该页面配置个代理就OK了。spree安装部署环境已安装git,npm安装Spreegit clone --recursive https:/

2015-12-15 13:05:34 4228

原创使用Hexo搭建github博客

新博客地址环境GitGithub仓库:xxx.github.iohexo 3.x安装Hexonpm install -g hexo初始化blog框架//创建博客文件夹mkdir GitBlogcd GitBlog//初始化 hexo initnpm installnpm install hexo-deployer-git --save修改_config.yml使用github

2015-12-14 23:04:21 708

原创 elasticsearch分页查询

新博客地址主要有两种方式from/sizefrom 偏移，默认为0size 返回的结果数，默认为10在数据量不大的情况下我们一般会使用from/size，而在深度分页的情况下效率极低，该命令会把from+size条记录全部加在到内存中，对结果返回前进行全局排序，然后丢弃掉范围外的结果，并且每次执行都会重复这样的操作，运行速度极慢而且往往还会造成es内存不足而挂掉。从index A的type B中搜索

2015-12-14 22:51:59 11165 1

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的，这里做了点总结，方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

偷闲小苑

原创 kafka集群扩容(Topic迁移)

原创 sparkSQL中UDF的使用

原创 Hexo 主题使用进阶

原创 spark任务进度实时更新与聚合

原创使用Hexo搭建github博客

原创 elasticsearch分页查询

spark_prometheus_metrics.json

scala for spark

空空如也

原创 kafka集群扩容(Topic迁移)

原创 sparkSQL中UDF的使用

原创 Hexo 主题使用进阶

原创 spark任务进度实时更新与聚合

原创 使用Hexo搭建github博客

原创 elasticsearch分页查询

spark_prometheus_metrics.json

scala for spark

空空如也

原创使用Hexo搭建github博客