自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

渡码的专栏

公众号「渡码」程序•分享•经历

  • 博客(20)
  • 收藏
  • 关注

原创 半年技术输出的总结,继续前行

小结从 19 年开始决定写博客、公众号,到现在半年的时间已经在写了 24 篇原创文章,虽然数量不多,基本上每周一篇的节奏,但还是有点小坚持带来的喜悦。虽然没什么人气,但积累积累也算是对自己所做的事情一个总结、思考,同时也提高一下自己的写作能力。这半年除了每周写一篇博客,下班时间还会在知乎上做一些问答,在帮助别人的同时锻炼自己的表达、写作能力。开通了公众号,希望能够输出一些独一无二且有价值的...

2019-07-11 13:39:46 313

原创 总结几个简单好用的Python人脸识别算法

介绍4个简单、好用的Python人脸识别算法

2022-07-18 08:14:34 418 2

原创 花6个月写的付费专栏,免费送|仿开源框架从零到一完整实现高性能、可扩展的RPC框架

作者渡码,阿里巴巴码农,公众号:渡码 作者,专注大数据开发、数据分析和Python技术。关注公众号 渡码 回复关键字 manis,可获取电子书、各章节和完整源代码,并且可加入读者群一起交流问题。简介19年上半年,我阅读了Hadoop RPC模块的源代码,读完后发现这个模块设计的非常好,与其他模块无耦合,完全可以独立出来当成一个独立的框架。为了总结学到的编程知识,同时也为了学习Apache顶级开源项目的代码是如何编写的,我便把它做成了电子书,共350页,从写代码到做成电子书共花了6个月的时间。本来想

2020-05-24 18:35:45 1439

原创 写爬虫爬了3w条职位数据,看看当前招聘形势 | 开源

最近有不少程序员又开始找工作了,为了了解目前技术类各职位的数量、薪资、招聘公司、岗位职责及要求,我爬取了拉勾网北上广深4个城市的招聘数据,共3w条。职位包括:人工智能(AI)、大数据、数据分析、后端(Java、C|C++、PHP、Python)、前端、Android、iOS、嵌入式和测试。从数据爬取到分析用了两天的时间,不论你是在职状态还是找工作的状态,相信这份数据都会对你有参考价值。另外,在公众号(见文末)回复 职位 即可获得本次分析的源码。1、哪个城市目前招聘的岗位多可以看到,目前北京招聘的

2020-05-22 13:21:29 629

原创 学习数据结构和算法的两个利器|良心推荐

数据结构和算法的重要性想必各位在江湖上早就有所耳闻。它对我们最直接的影响就是面试,一般来说,程序员一面都会涉及数据结构和算法知识,尤其是当前找工作比较难的情况下,各个公司会更加重视对候选人基本能力的考察。另外的影响是工作,以我为例,最开始在一家小公司做大数据的时候,由于数据量较大而计算资源不足,所以需要想尽各种办法优化软件的性能。最难解决的问题就是空间搜索效率,当时用了kd-tree这种数据结构,以及最短路径算法(SPFA)。当然大部分情况下像这种常见的算法调用现有的包即可,但有些时候需要结合业务做一些改进

2020-05-22 13:19:58 359

原创 5分钟入门pandas

pandas是在数据处理、数据分析以及数据可视化上都有比较多的应用,这篇文章就来介绍一下pandas的入门。劳动节必须得劳动劳动1. 基础用法以下代码在jupyter中运行,Python 版本3.6。首先导入 pandasimport pandas as pd# 为了能在jupyter中展示图表%matplotlib inline# 从csv文件读取数据,也可从excel、json文件中读取# 也可以通过sql从数据库读数据data = pd.read_csv('order_list.c

2020-05-22 13:18:48 257

原创 用Python快速实现一个垃圾分类APP|附带微信小程序

最近北京开始实行垃圾分类,导致大家对垃圾的研究热度突然涨高,垃圾们也纷纷表示从来没有获得过这么高的关注度。其实,上海市去年已经开始实行,网上已经有不少成熟的教程了,像什么《垃圾分类从入门到精通》、《深入浅出垃圾分类》、《垃圾分类你应该掌握的10条基本原则》。这种教程如果我们亲自去学显然不符合程序员的个性,作为一个程序员,我们应该把这事儿交给机器来做,这样才能省下更多的时间投入到996中。扯了这么多废话,下面言归正传,今天这篇文章主要介绍如何利用现有的工具来实现一个垃圾分类的应用。这个想法是我昨天才有的,今

2020-05-22 13:08:38 1291

原创 分享一个零基础快速爬取数据的工具

今天介绍下如何使用pyppeteer抓取网页的数据。pyppeteer是web应用自动化测试的具,可以直接运行在浏览器中,通过代码控制与页面上元素进行交互,并获取对应的信息。以前我们我们爬取数据都是通过写代码爬取,当待爬取的网站需要登录时,我们需要在代码中模拟登录;当爬取过快需要验证时,我们需要在代码中实现验证逻辑;当ip被封时,还需要有自己的动态ip库。待爬网站的反爬策略越多,我们爬取的成本就越大。总之,用写代码的方式爬取数据需要构造比较复杂的请求,想尽一切办法将爬虫伪装成真实的用户。使用pyppet

2020-05-22 13:06:21 733

原创 Trie树-提高海量数据的模糊查询性能

今天这篇文章源于上周在工作中解决的一个实际问题,它是个比较普遍的问题,无论做什么开发,估计都有遇到过。具体是这样的,我们有一份高校的名单(2657个),需要从海量的文章标题中找到包含这些高校的标题,其实就是模糊查询。(关注公众号 渡码,回复关键词 trie 获取完整源代码)对应的伪代码如下selected_titles = []for 标题 in 海量标题: for 高校 in 高校名...

2020-04-27 13:33:07 454

原创 关于程序员能做什么副业,我爬了相关文章用机器学习算法分析 | 附源码

最近想了解下程序员可以做什么副业,我抓取了各大网站关于程序员搞副业的文章,但抓取的文章较多,为了将相似的文章归拢到一起,我用聚类算法将文章划分到不同的主题。下面我就来介绍一下分析的结论以及过程。文末回复关键字即可获取本次分析源码。本次分析的文章是从博客园、CSDN、知乎、今日头条和微信上抓取,共140篇,聚类得到的主题如下: 接私活:主要是在码市、程序员客栈等网站接项目做外包,对于接私活的...

2020-04-07 12:39:50 534

原创 19年就业形势怎么样

我们都知道去年开始就业形势就不太好,尤其是程序员群体,好多人辞职后找不到合适的工作。同时越来越多中小企业出现了大厂、名校的求职者,就业形势的严峻性可见一斑。今天这篇文章结合 19 年上半年的就业数据做一个简单的分析总结,看看目前整体的形势,给各位一个参考。公众号「渡码」,回复就业查看各平台详细的分析报告先看看中国就业研究所和智联招聘联合发布的 19 年二季度就业报告,指标为智联招聘全站的数据...

2019-09-25 08:30:17 798

原创 StackOverflow 周报 - 这些高关注的问题你是否都会

我从 Stack Overflow 上找的了一些高关注度且高赞的问题。这些问题可能平时我们遇不到,但既然是高关注的问题和高点赞的回答说明是被大家普遍认可的,如果我们提前学到了以后不管工作中还是面试中处理起来就会更得心应手。本篇文章是第一周的内容,一共 5 个题目。我每天都会在公众号发一篇,你如果觉得这个系列对你有价值,欢迎文末关注我的公众号。DAY1.复合运算符中的强制转换今天讨论的问...

2019-08-30 13:40:38 154

原创 程序员修炼之道-注重实效

本篇文章是阅读《程序员修炼之道——从小工到专家》第一章 “注重实效的哲学” 的笔记。有了一些开发经验后再看这本书会比较有感触,本书第一章讲了一些对程序员最基本的要求,如果你正在进行职业规划,那么这本书有很好的参考意义。下面我结合自己的经历聊聊第一章的内容。责任责任是做一切事情得前提,小到对自己的代码,大到人生规划,我想这也是作者把它作为第一章第一段的原因。责任是你主动承担的东西,当然如果这...

2019-08-05 12:35:47 230

原创 百亿级数据处理优化

最近在做大数据处理时,遇到两个大表 join 导致数据处理太慢(甚至算不出来)的问题。我们的数仓基于阿里的 ODPS,它与 Hive 类似,所以这篇文章也适用于使用 Hive 优化。处理优化问题,一般是先指定一些常用的优化参数,但是当设置参数仍然不奏效的时候,我们就要结合具体的业务,在 SQL 上做优化了。为了不增加大家的阅读负担,我会简化这篇文章的业务描述。问题这是一个离线数据处理的问题...

2019-07-18 08:30:42 845

原创 RPC - 麻雀虽小,五脏俱全

说起 RPC (远程过程调用),大家应该不陌生。随着微服务、分布式越来越流行,RPC 应用越来越普遍。常见的 RPC 框架如:Dubbo、gRPC、Thrift 等。本篇文章不是介绍各种 RPC 的使用和对比。而是深入剖析一个 RPC 包含哪些内容。我最近在 Hadoop 的源码,正好把 Hadoop RPC 看完了。感觉 Hadoop 的 RPC 框架设计的还是比价优秀的。Hadoop 作为大数...

2019-06-24 08:27:49 307

原创 Flink DataStream 编程入门

流处理是 Flink 的核心,流处理的数据集用 DataStream 表示。数据流从可以从各种各样的数据源中创建(消息队列、Socket 和 文件等),经过 DataStream 的各种 transform 操作,最终输出文件或者标准输出。这个过程跟之前文章中介绍的 Flink 程序基本骨架一样。本篇介绍 DataStream 相关的入门知识。Flink 101为了学习 Flink 的朋友...

2019-06-19 08:32:30 411

原创 从 5G 到 Flink 101

最近正在学习 Flink 相关的内容,突然学习 Flink 有两个主要的原因。第一,5G 时代即将到来,5G 带来更高的网络传输数据意味着实时计算的需求将会变得更普遍。同时,5G将会带动物联网的发展,将会有更多、更复杂的实时计算场景。而 Flink 目前正是能够满足各种计算场景的优秀框架。第二,阿里巴巴内部的实时计算平台是基于 Flink 的,并且阿里一直在推动 Flink 社区的发展。我...

2019-06-19 08:31:20 228

原创 聊聊Lambda架构

定义在数据分析场景中,我们可能会遇到这样的问题。例如,我们要做一个推荐系统,如果我们用批处理任务去做,一天或者一小时的推荐频次明显延迟太大。如果用流处理任务,虽然延迟的问题解决了,然而只用实时数据而没有历史数据,那么准确性就无法保证。因此需要结合批处理的历史数据和流处理的实时数据进行处理,既能保证准确性,又能保证实时性。再比如反作弊系统,实时识别作弊用户的时候同时需要用到用户的历史行为。针...

2019-06-13 22:43:53 1197

原创 工作4年后的一些思考

15年毕业,算上实习经历差不多有四年半的工作经验。没想到时间过得这么快,有时候还觉得跟刚毕业一样。之前在创业公司呆过两年半,目前在阿里做大数据/算法相关的工作。这四年来收获过成功的喜悦也尝过失败的苦果。面对正在跑步进入大龄程序员队列的我,对过去有一些思考总结,同时对未来也有一些想法。这是我的第一篇非技术类博客。大学11年上的大学,学校并不是很好,普通二本。录取专业为教育类,由于对计算...

2019-05-20 08:26:13 347

原创 渡码公众号

2019-05-19 21:57:17 347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除