关闭

[置顶] gRPC vs Thrift

简单分布式架构 基本问题 传输什么样的数据,用哪种协议 哪种方式数据交换的效率好 服务端如何处理请求 需要扩展服务端时 当你的服务超过最简单结构时,你想要 灵活性 可扩展 低延迟 当然,你更想要简单 应该用这些协议吗 SOAP XML, XML还是XML CORBA 美好的想法,糟糕的实现 过渡设计和臃肿 DCOM, COM+主要用于windows平台 HTTP/TCP/Socket/Wh...
阅读(10455) 评论(1)

[置顶] Aerospike使用介绍

Aerospike简介 Aerospike是什么? Aerospike(以下简称AS)是一个以分布式为核心基础,可基于行随机存取内存中索引、数据或SSD存储中数据的数据库。它主要用于百G、数T等大数据量并且在数万以上高并发情况下,对性能也有ms读取插入要求的场景。目前主要集中于互联网广告行业,如eXelate、BlueKai、MediaV、 InMobi、 applovin等。 特性可预见的高性能...
阅读(6408) 评论(2)

数据湖介绍

数据湖介绍数据湖概念是2011年提出来的,数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的成本,细节数据丢失等问题出现的。 数据湖大多是相对于传统基于RDBMS系统的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务...
阅读(618) 评论(0)

Go连接Hive

经过两天多的资料查找,反复测试从网上找到的多种方案,加上阿里云售后的支持,终于搞定Go语言连接Apache Hive的问题。 测试环境,阿里云E-MapReduce 2.1 中的Hive, Golang 1.7,开发环境win10。 在阿里云hive-site.xml中需要添加: hive.server2.authentication...
阅读(1344) 评论(0)

Go连接Kafka

golang连接kafka的例子好少,而支持offset追踪者更少,但也是基础的要求。”github.com/bsm/sarama-cluster”结合“github.com/Shopify/sarama”满足了此要求。package main import ( "fmt" "os" "strings" "time" "github.com/Shopify/sa...
阅读(5780) 评论(2)

Go语言圣经(中文版)

http://golang-china.github.io/gopl-zh/index.html...
阅读(4555) 评论(0)

From scikit-learn to Spark ML

From scikit-learn to Spark ML Yoann Benoit PartagerTweeter+ 1E-mail Dans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les aut...
阅读(670) 评论(0)

Pandarize Your Spark Dataframes

DataFrames are a great abstraction for working with structured and semi-structured data. They are basically a collection of rows, organized into named columns. Think of relational database tables: DataFrames are very similar and allow you to do similar ope...
阅读(351) 评论(0)

From Pandas to Apache Spark’s Dataframe

With the introduction in Spark 1.4 of Window operations, you can finally port pretty much any relevant piece of Pandas’ DataFrame computation to Apache Spark parallel computation framework using Spark SQL’s DataFrame. If you’re not yet familiar withSpark’s...
阅读(1030) 评论(0)

读《人类简史》有感

读了尤瓦尔.赫拉利(Yuval Noah Harari)的《人类简史 从动物到上帝》,又在昨天下午见了一位对政治极感兴趣的一位老先生,不由得想到了人类未来及共产主义。 在书中,赫拉利先生边传述人类的历史,边对其评价,特别提到人类农业革命,是历史的一个退步,这个观点跟斯塔夫里阿诺斯先生的《全球通史 从史前史到21世纪》观点一样。除此之外,两位先生都在书中对科技进步对人类的影响都是非常的赞赏,读到这些地...
阅读(1558) 评论(0)

从机器学习谈起

从机器学习谈起   在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。   在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅...
阅读(288) 评论(0)

数据标准化的几种方法

常见的数据归一化的方法有: min-max标准化(Min-max normalization)、log函数转换、atan函数转换、z-score 标准化(zero-mean normalization)...
阅读(326) 评论(0)

Shell常用

1、批量替换文本sed -i '/^$/d' *.sql #删除空行 sed -i 's/,//g' *.sql sed -i 's/^M//g' *.sql #需要替换^M 或 sed -i 's/\r//g' *.sql sed -i 's/[ \t]*$//g' *.sql #删除行尾空白 sed -i 's/$/,/g' *.sql sed -i '1 s...
阅读(418) 评论(0)

Spark SQL Relational Data Processing in Spark (学习笔记)

介绍 用户一方面需要关系型操作,另一方面需要过程式的操作,shark只能进行关系型操作。Spark SQL可以将两者结合起来。 Spark SQL由两个重要组成部分 DataFrame API 将关系型的处理与过程型处理结合起来,可以对外部数据源和Spark内建的分布式集合进行关系型操作 压缩的列式存储,而不是Java/Scala对象 Catalyst 提供了一整套性能分析、计划、运行时代码生...
阅读(1249) 评论(0)

组织行为学(学习笔记)

大五人格模型 情绪稳定性 外倾性 经验开发放性 随和性 责任心...
阅读(432) 评论(0)

大规模数据管理系统调查(学习笔记)

介绍 大数据的四个特性 Volume(体量)、Velocity(速度)、Variety(多样性)、Veracity(精确性) 应对 介绍基本情况 Data model System architecture Consistency model 基本实现原理 数据模型和数据分区 SEDA/MapReduce架构高扩展性 基于timestamps的并发控制协议 强一致性模型扩展约束 BASE模型及...
阅读(509) 评论(0)
51条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:62272次
    • 积分:1052
    • 等级:
    • 排名:千里之外
    • 原创:42篇
    • 转载:8篇
    • 译文:1篇
    • 评论:11条
    文章分类
    最新评论