鞋带散了的木木
码龄11年
关注
提问 私信
  • 博客:141,218
    141,218
    总访问量
  • 34
    原创
  • 643,149
    排名
  • 11
    粉丝
  • 0
    铁粉

个人简介:不懒的人,运气都不会太差

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2013-11-22
博客简介:

野生大头鱼

博客描述:
请说出有关积累的名言警句
查看详细资料
个人成就
  • 获得54次点赞
  • 内容获得18次评论
  • 获得84次收藏
创作历程
  • 2篇
    2019年
  • 4篇
    2018年
  • 19篇
    2017年
  • 11篇
    2016年
  • 11篇
    2015年
成就勋章
TA的专栏
  • JanusGraph
    1篇
  • spark
    5篇
  • Hive
    9篇
  • 数据库
    2篇
  • Spark Streaming
  • 大数据哈哈入门
    4篇
  • scikit-learn使用手册
    2篇
  • 一个月入门python
    5篇
  • 代码规范
    1篇
  • Java
    1篇
  • 论文阅读
    2篇
兴趣领域 设置
  • 大数据
    hivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

分布式系统的CAP和BASE理论

背景网络分区:俗称“脑裂”。当网络发生异常情况,导致分布式系统中部分节点之间的网络延时不断变大,最终导致组成分布式系统的所有节点中,只有部分节点之间能够进行正常通信,而另一些节点则不能。当网络分区出现时,分布式系统会出现局部小集群。CAPCAP理论指的是在一个分布式系统中,不可能同时满足Consistency(一致性)、Availablity(可用性)、Partition toler...
转载
发布博客 2019.09.22 ·
304 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

[JanusGraph]图数据库JanusGraph简介

JanusGraph简介到2019年12月31号之前会完成图数据库JanusGraph的一系列笔记
原创
发布博客 2019.09.22 ·
275 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【论文阅读第二期】The Wisdom of the few

论文阅读第二期的文章《The Wisdom of the few》讲的是基于专家观点的协同过滤推荐算法,是一篇2009年的文章。作者Xavier Amatriain是推荐系统领域的一位大牛,最早主导了Netflix的推荐系统,后来去了Quora,现在自己创办公司Curai研究AI。因为本人对推荐系统了解比较少,所以只是略读了文章,做一个简单的总结:1. 文章摘要;2.什么是协同过滤1. 文章摘...
原创
发布博客 2018.11.17 ·
577 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【论文阅读第一期】Goods:Organizing Google’s Datasets总结

论文阅读第一期的文章《Goods:Organizing Google’s Datasets》讲的是关于谷歌在海量元数据管理方面的实践。本篇总结主要从3个方面进行展开:1.什么是元数据;2.如何管理元数据;3.启发与总结1.什么是元数据元数据被称之为描述数据的数据,记录的是文件的特征,包括数据属性、拥有者、权限、数据块等信息。无论是mysql、oracle这样的关系型数据库,还是Hive、HBa...
原创
发布博客 2018.10.25 ·
1073 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【代码规范】公共常量封装:接口、枚举还是普通类

1. 背景虽然项目组定义了软件开发规范,包括了技术选型、接口规范等,但是在实际执行中还是存在一些不足。本文所记录的常量封装就是其中一个问题,目前项目中关于常量的封装存在3种形式,比较混乱。通过查阅相关资料,对使用目的、各封装形式的优缺点进行分析,给出常量封装的推荐使用规范。2. 3种封装形式普通类public class ErrorCodeConstant { public fina...
原创
发布博客 2018.10.09 ·
1445 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

【Spring Boot入门】AOP基础及Advice的执行顺序

本文主要分为两个部分,首先介绍AOP的基础,包括为什么要使用AOP以及AOP中的基本概念,然后讲解AOP中各类Advice的执行顺序并给出简单示例。一、AOP基础1、为什么要使用AOPAOP(Aspect Oriented Programming,面向切面编程),是Spring框架中的一个重要概念,那么面向切面编程有什么好处呢。 如下图所示,我们传统的编程方式是垂直化的编程,...
原创
发布博客 2018.08.01 ·
2358 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Hive join优化(mapjoin,streamtable)

一、 Join语法Hive支持的join语法:join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference L
原创
发布博客 2017.10.12 ·
3820 阅读 ·
3 点赞 ·
0 评论 ·
12 收藏

Spark 中的宽依赖和窄依赖

文章转自houmouSpark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子
转载
发布博客 2017.09.21 ·
612 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

RDD论文翻译 --弹性分布式数据集:一种基于内存的集群计算的容错性抽象方法

弹性分布式数据集(RDD,Resilient Distributed Dataset)论文翻译
转载
发布博客 2017.09.04 ·
1488 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据
转载
发布博客 2017.08.22 ·
359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop发行版

Hadoop在大数据领域的应用前景很大,不过因为是开源技术,实际应用过程中存在很多问题。于是出现了各种Hadoop发行版,国外目前主要是三家创业公司在做这项业务:Cloudera、Hortonworks和MapR。 Cloudera和MapR的发行版是收费的,他们基于开源技术,提高稳定性,同时强化了一些功能,定制化程度较高,核心技术是不公开的。营收主要来自软件收入,国内的星环科技盈利模式与之类似。
转载
发布博客 2017.07.14 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive提示警告SSL

一、问题Hive能正常执行任务,但出现“WARN: Establishing SSL connection without server’s identity verification is not recommended.”告警,翻译过来就是“不建议不使用服务器身份验证建立SSL连接。”Thu Jun 15 12:56:05 CST 2017 WARN: Establishing SSL conn
原创
发布博客 2017.06.15 ·
11606 阅读 ·
19 点赞 ·
9 评论 ·
21 收藏

Hive元数据库介绍及信息查看

一、概念Hive中有两类数据:表数据和元数据。和关系型数据库一样,元数据可以看做是描述数据的数据,包括1.hive表的数据库名、表名、字段名称与类型、分区字段与类型 2.表及分区的属性、存放位置等 元数据存储路径和內表一样,分为本地和远程,可通过hive-site.xml文件设置 二、元数据库信息元数据库中存在以下这些表: 元数据ER图 元数据表结构详解看参见lxw的文章三、如何查看元数据库
原创
发布博客 2017.06.14 ·
16394 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

魅族大数据之用户洞察平台介绍

一、总体介绍1.1. 用户洞察平台的定位魅族 UIP(用户洞察平台),通过对三方受众数据的汇聚、清洗、智能运算,构建了庞大的精准人群数据中心,提供丰富的用户画像数据以及实时的场景识别力。对内:无缝对接各类业务平台的数据应用,如广告平台、PUSH推送、个性化推荐之间建立了数据通道,支持公司级的精准营销,消息及时送达服务等场景。营销效果评估,反馈数据可进一步加工,用于提
转载
发布博客 2017.06.12 ·
2972 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive开发经验总结

了解Hive的基本概念 对Hive基本概念的了解,有助于对移动开发平台的理解与掌握,便于项目开展。尤其是其与普通关系型数据库的区别。 数据倾斜(Data skew) 概念:简单理解就是数据分布不均匀。有这么一种说法:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 产生场景:
原创
发布博客 2017.06.06 ·
675 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hive编程指南

发布资源 2017.06.05 ·
pdf

Hive编程入门指南

一、基本概念1. 定义Hive是基于Apache Hadoop的数据仓库基础架构,用于读取,写入和管理存储在分布式系统中的大型数据集,并使用SQL语法进行查询。Hive建立在Hadoop之上,具有以下功能:通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析。A mechanism to impose structure on a variety of
原创
发布博客 2017.05.23 ·
3077 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Kaggle 数据挖掘比赛经验分享 (转载)

作者简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者
转载
发布博客 2017.05.22 ·
763 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

kafka教程-基本概念

一、基本概念Kafka™用于构建实时数据流水线和流媒体应用,具有水平可扩展性,容错性,并在数千家公司得到了应用。 流媒体平台(streaming platform)有三个关键功能: 1. 发布和订阅记录流。 在这方面,类似于消息队列或企业消息系统。 2. 以容错方式存储记录流。 3. 实时处理记录流。Kafka被用于两大类应用程序: 1. 构建可在系统或应用程序之间可靠获取数据的
翻译
发布博客 2017.05.10 ·
515 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

sbt安装及测试

一、概念sbt是Scala,Java等的构建工具,要求Java 1.6及以上。Spark由Scala语言实现,在Spark学习使用过程中经常要用到sbt工具。 sbt官网有比较详尽的使用教程,且有英语、中文、日语等版本,建议大家直接查看官网教程,本文主要包括sbt的安装及使用其编译完成WordCount程序。二、安装sbt的安装分为两部分: a launcher JAR and a shell s
原创
发布博客 2017.05.09 ·
2507 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多