自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谷震平的专栏

我正在星球和朋友们讨论有趣的话题,你⼀起来吧? https://t.zsxq.com/AynemMF

原创 大数据工具测评:Clickhouse vs TiDB vs Palo

前言 关注OLAP领域1年多了,目前还是处于混战阶段,各类工具、技术层出不穷。之前做过clickhouse、tidb、palo的测试,从九个角度对比了这三款经典的OLAP工具: 数据导入 sql查询性能 QPS 资源使用 安装部署 社区活跃...

2019-09-03 14:37:44

阅读数 244

评论数 0

原创 技术篇:关于EKT的一些设计

前言 笔者做了一段时间的区块链底层开发,深知架构设计的重要性。对于高手来说,没有的轮子是可以自己造的,造个大规模消息/任务队列都只是想不想写的事情。但在企业中开发,追求的是稳定、性能、成本等等,所以通常希望使用开源组件,二次开发。 解析过EKT项目,鉴于自己还不是高手,把自己认为有用的点都总结下。...

2019-03-22 14:36:03

阅读数 182

评论数 0

原创 Redash 二次开发入门

前言 在Redash二次开发上做了不少工作,修改bug,定制样式,定制功能,增加数据源等等。聊聊自己的二次开发经验。 懂分享的人,一定会快乐! 环境准备 Redash依赖的外部环境比较多,特别是Python相关的包,大多数时候一次装不成功,需要单独装或者更新安装其他系统依赖库,祝大家一次成功! 环...

2019-02-20 11:40:26

阅读数 3086

评论数 0

原创 识别一条链的品种(科普篇)

一 前言 大多数人都具备分类知识,知道猫有几种,狗有几种。但是,在区块链领域,联盟链、应用链、私有链、公共链等同时出现,就傻傻分不清楚。 听说搞生物分类学的,懂鸟的不懂昆虫,懂蝴蝶的搞不定灰蝶。好在,区块链还没有那么多品种。这个问题,一篇文章能说明白。 现通行的生物的科学分类法:自然分类。自...

2018-07-27 14:43:36

阅读数 321

评论数 0

原创 区块链二三事儿(技术篇)

一 前言 区块链的开始,还要提一个中国人–戴伟,可以去他的网站(www.weidai.com)上看看他关于B-Money的文章。中本聪在论文《比特币:一种点对点网络中的电子现金》中的第一个引用者就是戴伟。十年来,区块链的概念早已飞入寻常百姓家。 挖个坑,认知区块链需要如下四步: 准备bi...

2018-07-19 10:53:37

阅读数 336

评论数 0

原创 高阶Python----常用的数据结构与算法

前言高阶Python系列文章是笔者想要突破自己目前的技术生涯瓶颈而作,不具有普适性。本文主要是介绍Python在数据结构和算法中常用的函数。这也是数据分析领域必备知识点。也不是特地为了某些读者而作,想着提高自己的同时,能方便他人就更好了。懂分享的人,一定会快乐!常用的四个模块应该是:collect...

2017-02-12 21:27:27

阅读数 5000

评论数 1

原创 大数据开发----Hive(入门篇)

前言本篇介绍Hive的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。本文所用的环境为: CentOS 6.5 64位 Hive 2.1.1 Java 1.8 Hive Architecture引自官网,务必仔细阅读: Figure 1 a...

2017-02-02 22:04:29

阅读数 3805

评论数 0

原创 大数据开发----Fabric(入门篇)

一 前言本篇介绍Fabric的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。二 安装Fabric现在支持Python2和Python3,安装: pip install fabric pip install fabric3 输入fab命令:三 ...

2017-02-02 21:54:00

阅读数 2311

评论数 0

原创 Hadoop----集群运维(持续更新...)

前言本篇介绍Hadoop的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。常用HDFS命令 hadoop fs -ls URI hadoop fs -du -h URI hadoop fs -cat URI [文件较大,hadoop fs -c...

2017-02-02 21:39:24

阅读数 3688

评论数 0

原创 Hadoop----集群搭建指南(下卷)

前言什么是Hadoop? Apache Hadoop is a framework for running applications on large cluster built of commodity hardware. The Hadoop framework transparently...

2017-02-02 21:28:08

阅读数 1243

评论数 0

原创 Hadoop----集群搭建指南(中卷)

前言本文的搭建基于上卷的配置,环境不再一一赘述。网络配置好的5台节点均可相互ping通,对于节点hadoop1(192.168.20.2)可以ping同其余四台hadoop2(192.168.20.3)、hadoop3(192.168.20.4)、hadoop4(192.168.20.5)、had...

2017-02-02 20:59:08

阅读数 868

评论数 0

原创 Hadoop----集群搭建指南(上卷)

前言阅读本文,需要具备Linux、计算机网络的基础知识。所以在文中出现的相关基础知识,均以链接的形式给出,务必理解该链接的内容后,继续阅读本指南。集群搭建的环境多种多样,本文采用VitualBox安装5台虚拟机构建集群。具体环境: CentOS 6.5 64位 VirtualBox 5.1.10 ...

2017-02-02 20:54:29

阅读数 1354

评论数 2

原创 数据之美----雪球网股票组合分析

简介因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持...

2016-10-13 00:22:24

阅读数 4950

评论数 4

原创 爬虫之刃----赶集网招聘类爬取案例详解(系列四)

前言本篇承袭之前的系列文章,开始动真格。以赶集网招聘类信息爬取为例,详细解说爬虫程序构建过程。准备工作: 阅读之前的系列一、系列二、系列三,有一定递进关系 登陆赶集网,了解下“地形” OK,let’s go!构建URL库每个网站的URL都会有一定规律,或强或弱。赶集网的URL规律就非常明显。郑重说...

2016-10-01 20:36:46

阅读数 8720

评论数 5

原创 爬虫之刃----简化爬虫程序之滚轮子实战(系列三)

前言 这是一些准备工作: 了解整个系列的安排 了解系列二中的爬虫架构 If you have done, that’s cool ! 这篇主要是: 介绍需要的技术栈,需要补的东西请戳官方文档。官贴是专业的! 推荐个人使用的一些库和轮子 OK!Let’s get a new sta...

2016-07-31 23:20:08

阅读数 3742

评论数 4

原创 爬虫之刃----总览之心里鸡汤(系列一)

问题背景 在百姓网挖坑中,累啊。 我的老大告诉我,那谁谁需要58/赶集的数据。我当时的第一反应是找个黑帽去脱库…擦嘞。 老大面对我:“嗯哼,赶集的,你上吧!有问题找xx协助一下。” 我就只能“哦”了一下….. 下面填坑。 这个系列的价值 我是这样想的:把这个当故事看会好点。但是,文笔...

2016-07-31 23:16:59

阅读数 1380

评论数 0

原创 全沾工程师----如何一个人写完web、Android、iOS、接口、CMS

前言 看了文章标题,你也行吓一跳,心想这人有那么牛逼嘛。就当笔者浮夸吧,不想争辩了。这是一个神奇的时代,我这一代IT人有太多的工具。虽然我懒(其实程序员都懒),但是,我选择的技术和工具仍然具有相当大的自定义空间。 这不是一篇啥好文章,但是,这篇文章可以给那些有需求全沾的人一点点建议。 沉...

2016-06-17 16:24:53

阅读数 6493

评论数 3

原创 站长篇----远程连接数据库失败的解决方法

前言远程连接数据出错,报: host “XXXXXXXXXXXX” is not allowed to connect to this MySql server unable to authentic SSH tunnel: Invalid username or password这三个错误一...

2016-06-14 14:31:46

阅读数 4009

评论数 0

原创 OCR----你不得不知的Tesseract六大重要核心

Abstract整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男...

2016-05-16 11:28:55

阅读数 21190

评论数 10

原创 我笑了...pytesseract是这么简单的model

概要Python语言中,pytesseract是用于验证码、字符识别的常用model。研究OCR期间,接触到这个模块。深究其源码,才明白,这个库是如此简单。安装: 首先安装依赖:PIL、Image、tesseract-ocr,然后: pip install pytesseract pytes...

2016-04-27 08:33:03

阅读数 2278

评论数 0

提示
确定要删除当前文章?
取消 删除