大数据
渡码
公众号「渡码」
展开
-
花6个月写的付费专栏,免费送|仿开源框架从零到一完整实现高性能、可扩展的RPC框架
作者渡码,阿里巴巴码农,公众号:渡码 作者,专注大数据开发、数据分析和Python技术。关注公众号 渡码 回复关键字 manis,可获取电子书、各章节和完整源代码,并且可加入读者群一起交流问题。简介19年上半年,我阅读了Hadoop RPC模块的源代码,读完后发现这个模块设计的非常好,与其他模块无耦合,完全可以独立出来当成一个独立的框架。为了总结学到的编程知识,同时也为了学习Apache顶级开源项目的代码是如何编写的,我便把它做成了电子书,共350页,从写代码到做成电子书共花了6个月的时间。本来想原创 2020-05-24 18:35:45 · 1497 阅读 · 0 评论 -
Trie树-提高海量数据的模糊查询性能
今天这篇文章源于上周在工作中解决的一个实际问题,它是个比较普遍的问题,无论做什么开发,估计都有遇到过。具体是这样的,我们有一份高校的名单(2657个),需要从海量的文章标题中找到包含这些高校的标题,其实就是模糊查询。(关注公众号 渡码,回复关键词 trie 获取完整源代码)对应的伪代码如下selected_titles = []for 标题 in 海量标题: for 高校 in 高校名...原创 2020-04-27 13:33:07 · 512 阅读 · 0 评论 -
关于程序员能做什么副业,我爬了相关文章用机器学习算法分析 | 附源码
最近想了解下程序员可以做什么副业,我抓取了各大网站关于程序员搞副业的文章,但抓取的文章较多,为了将相似的文章归拢到一起,我用聚类算法将文章划分到不同的主题。下面我就来介绍一下分析的结论以及过程。文末回复关键字即可获取本次分析源码。本次分析的文章是从博客园、CSDN、知乎、今日头条和微信上抓取,共140篇,聚类得到的主题如下: 接私活:主要是在码市、程序员客栈等网站接项目做外包,对于接私活的...原创 2020-04-07 12:39:50 · 591 阅读 · 0 评论 -
RPC - 麻雀虽小,五脏俱全
说起 RPC (远程过程调用),大家应该不陌生。随着微服务、分布式越来越流行,RPC 应用越来越普遍。常见的 RPC 框架如:Dubbo、gRPC、Thrift 等。本篇文章不是介绍各种 RPC 的使用和对比。而是深入剖析一个 RPC 包含哪些内容。我最近在 Hadoop 的源码,正好把 Hadoop RPC 看完了。感觉 Hadoop 的 RPC 框架设计的还是比价优秀的。Hadoop 作为大数...原创 2019-06-24 08:27:49 · 352 阅读 · 0 评论 -
百亿级数据处理优化
最近在做大数据处理时,遇到两个大表 join 导致数据处理太慢(甚至算不出来)的问题。我们的数仓基于阿里的 ODPS,它与 Hive 类似,所以这篇文章也适用于使用 Hive 优化。处理优化问题,一般是先指定一些常用的优化参数,但是当设置参数仍然不奏效的时候,我们就要结合具体的业务,在 SQL 上做优化了。为了不增加大家的阅读负担,我会简化这篇文章的业务描述。问题这是一个离线数据处理的问题...原创 2019-07-18 08:30:42 · 930 阅读 · 0 评论 -
19年就业形势怎么样
我们都知道去年开始就业形势就不太好,尤其是程序员群体,好多人辞职后找不到合适的工作。同时越来越多中小企业出现了大厂、名校的求职者,就业形势的严峻性可见一斑。今天这篇文章结合 19 年上半年的就业数据做一个简单的分析总结,看看目前整体的形势,给各位一个参考。公众号「渡码」,回复就业查看各平台详细的分析报告先看看中国就业研究所和智联招聘联合发布的 19 年二季度就业报告,指标为智联招聘全站的数据...原创 2019-09-25 08:30:17 · 864 阅读 · 0 评论