鞋带散了的木木-CSDN博客

转载分布式系统的CAP和BASE理论

背景网络分区：俗称“脑裂”。当网络发生异常情况，导致分布式系统中部分节点之间的网络延时不断变大，最终导致组成分布式系统的所有节点中，只有部分节点之间能够进行正常通信，而另一些节点则不能。当网络分区出现时，分布式系统会出现局部小集群。CAPCAP理论指的是在一个分布式系统中，不可能同时满足Consistency（一致性）、Availablity（可用性）、Partition toler...

2019-09-22 23:42:11 268

原创 [JanusGraph]图数据库JanusGraph简介

JanusGraph简介到2019年12月31号之前会完成图数据库JanusGraph的一系列笔记

2019-09-22 22:52:43 234

原创【论文阅读第二期】The Wisdom of the few

论文阅读第二期的文章《The Wisdom of the few》讲的是基于专家观点的协同过滤推荐算法，是一篇2009年的文章。作者Xavier Amatriain是推荐系统领域的一位大牛，最早主导了Netflix的推荐系统，后来去了Quora，现在自己创办公司Curai研究AI。因为本人对推荐系统了解比较少，所以只是略读了文章，做一个简单的总结：1. 文章摘要；2.什么是协同过滤1. 文章摘...

2018-11-17 15:12:20 544

原创【论文阅读第一期】Goods：Organizing Google’s Datasets总结

论文阅读第一期的文章《Goods：Organizing Google’s Datasets》讲的是关于谷歌在海量元数据管理方面的实践。本篇总结主要从3个方面进行展开：1.什么是元数据；2.如何管理元数据；3.启发与总结1.什么是元数据元数据被称之为描述数据的数据，记录的是文件的特征，包括数据属性、拥有者、权限、数据块等信息。无论是mysql、oracle这样的关系型数据库，还是Hive、HBa...

2018-10-25 23:27:00 1019

原创【代码规范】公共常量封装：接口、枚举还是普通类

1. 背景虽然项目组定义了软件开发规范，包括了技术选型、接口规范等，但是在实际执行中还是存在一些不足。本文所记录的常量封装就是其中一个问题，目前项目中关于常量的封装存在3种形式，比较混乱。通过查阅相关资料，对使用目的、各封装形式的优缺点进行分析，给出常量封装的推荐使用规范。2. 3种封装形式普通类public class ErrorCodeConstant { public fina...

2018-10-09 23:02:31 1391 1

原创【Spring Boot入门】AOP基础及Advice的执行顺序

本文主要分为两个部分，首先介绍AOP的基础，包括为什么要使用AOP以及AOP中的基本概念，然后讲解AOP中各类Advice的执行顺序并给出简单示例。一、AOP基础1、为什么要使用AOPAOP（Aspect Oriented Programming，面向切面编程），是Spring框架中的一个重要概念，那么面向切面编程有什么好处呢。如下图所示,我们传统的编程方式是垂直化的编程，...

2018-08-01 23:25:58 2283 1

原创 Hive join优化（mapjoin，streamtable）

一、 Join语法Hive支持的join语法：join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference L

2017-10-12 22:14:48 3686

转载 Spark 中的宽依赖和窄依赖

文章转自houmouSpark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。针对不同的转换函数，RDD之间的依赖关系分类窄依赖（narrow dependency）和宽依赖（wide dependency, 也称 shuffle dependency）.宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子

2017-09-21 21:33:28 573

转载 RDD论文翻译 --弹性分布式数据集：一种基于内存的集群计算的容错性抽象方法

弹性分布式数据集（RDD，Resilient Distributed Dataset）论文翻译

2017-09-04 15:01:22 1387

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据

2017-08-22 19:13:42 325

转载 Hadoop发行版

Hadoop在大数据领域的应用前景很大，不过因为是开源技术，实际应用过程中存在很多问题。于是出现了各种Hadoop发行版，国外目前主要是三家创业公司在做这项业务：Cloudera、Hortonworks和MapR。 Cloudera和MapR的发行版是收费的，他们基于开源技术，提高稳定性，同时强化了一些功能，定制化程度较高，核心技术是不公开的。营收主要来自软件收入，国内的星环科技盈利模式与之类似。

2017-07-14 22:32:14 485

原创 Hive提示警告SSL

一、问题Hive能正常执行任务，但出现“WARN: Establishing SSL connection without server’s identity verification is not recommended.”告警，翻译过来就是“不建议不使用服务器身份验证建立SSL连接。”Thu Jun 15 12:56:05 CST 2017 WARN: Establishing SSL conn

2017-06-15 16:00:26 11308 9

原创 Hive元数据库介绍及信息查看

一、概念Hive中有两类数据：表数据和元数据。和关系型数据库一样，元数据可以看做是描述数据的数据，包括1.hive表的数据库名、表名、字段名称与类型、分区字段与类型 2.表及分区的属性、存放位置等元数据存储路径和內表一样，分为本地和远程，可通过hive-site.xml文件设置二、元数据库信息元数据库中存在以下这些表：元数据ER图元数据表结构详解看参见lxw的文章三、如何查看元数据库

2017-06-14 23:00:05 16043

转载魅族大数据之用户洞察平台介绍

一、总体介绍1.1. 用户洞察平台的定位魅族 UIP（用户洞察平台），通过对三方受众数据的汇聚、清洗、智能运算，构建了庞大的精准人群数据中心，提供丰富的用户画像数据以及实时的场景识别力。对内：无缝对接各类业务平台的数据应用，如广告平台、PUSH推送、个性化推荐之间建立了数据通道，支持公司级的精准营销，消息及时送达服务等场景。营销效果评估，反馈数据可进一步加工，用于提

2017-06-12 10:06:36 2880

原创 Hive开发经验总结

了解Hive的基本概念对Hive基本概念的了解，有助于对移动开发平台的理解与掌握，便于项目开展。尤其是其与普通关系型数据库的区别。数据倾斜（Data skew）概念：简单理解就是数据分布不均匀。有这么一种说法：正常的数据分布理论上都是倾斜的，就是我们所说的20-80原理：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。产生场景：

2017-06-06 20:22:50 642

原创 Hive编程入门指南

一、基本概念1. 定义Hive是基于Apache Hadoop的数据仓库基础架构，用于读取，写入和管理存储在分布式系统中的大型数据集，并使用SQL语法进行查询。Hive建立在Hadoop之上，具有以下功能：通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析。A mechanism to impose structure on a variety of

2017-05-23 23:00:36 3026

转载 Kaggle 数据挖掘比赛经验分享 (转载)

作者简介 Kaggle 于 2010 年创立，专注数据科学，机器学习竞赛的举办，是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始，陆续参加了多场 Kaggle上面举办的比赛，相继获得了 CrowdFlower 搜索相关性比赛第一名（1326支队伍）和 HomeDepot 商品搜索相关性比赛第三名（2125支队伍），曾在 Kaggle 数据科学家排行榜排名全球第十，国内第一。笔者

2017-05-22 15:57:47 730

翻译 kafka教程-基本概念

一、基本概念Kafka™用于构建实时数据流水线和流媒体应用，具有水平可扩展性，容错性，并在数千家公司得到了应用。流媒体平台（streaming platform）有三个关键功能： 1. 发布和订阅记录流。在这方面，类似于消息队列或企业消息系统。 2. 以容错方式存储记录流。 3. 实时处理记录流。Kafka被用于两大类应用程序： 1. 构建可在系统或应用程序之间可靠获取数据的

2017-05-10 22:15:37 472

原创 sbt安装及测试

一、概念sbt是Scala，Java等的构建工具，要求Java 1.6及以上。Spark由Scala语言实现，在Spark学习使用过程中经常要用到sbt工具。 sbt官网有比较详尽的使用教程，且有英语、中文、日语等版本，建议大家直接查看官网教程，本文主要包括sbt的安装及使用其编译完成WordCount程序。二、安装sbt的安装分为两部分： a launcher JAR and a shell s

2017-05-09 14:39:14 2432

原创 Spark Streaming学习（1）

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字的许多来源中获取，并且可以使用由高级功能（如map，reduce，join和window）表达的复杂算法进行处理，处理后的数据可以推送到文件系统，数据库和实时仪表板。也可以在数据流上应用Spark的机器学习和图形处理算法

2017-05-08 16:51:51 281

转载详解pycharm新建文件时头部的模板

原文地址：点击打开链接pycharm新建文件时的头部模板，即默认的：author = ‘$USER’，pycharm下依次“File→settings→Editor→File and Code Template”即可找到界面，如下：如何对pycharm头部模板进行个人的全新定制呢？JetBrains的官方帮助文档里说的很详细了，这里画蛇添足赘述一下，努力做到详细精确，傻瓜操作，...

2017-05-04 22:12:43 1540 1

转载 Hive SQL的编译过程

原文地址：Hive SQL的编译过程Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hi

2017-05-03 14:31:33 524

原创 Hive 数据倾斜总结（）

数据倾斜概念、原因、场景、解决方法概念：数据倾斜（Data skew）是指 https://my.oschina.net/leejun2005/blog/100922http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236eb1cb4f7374387a235&scene=0#wec

2017-05-03 14:25:25 324

原创 MySQL自带数据库

本文主要从应用的角度总结MySQL常用但易忘的知识点：一. MySQL自带数据库MySQL安装后至少自带4个默认数据库：information_schema、mysql、performance_schema、test 注意：1.需要使用root账号登陆才能看到这些数据库；2.使用mysql语句能直接登陆MySQL服务器是因为mysql数据库下user表中存在user为空的行 in

2017-04-10 22:40:25 1551

原创 Ubuntu16.04 创建桌面快捷方式

一、基本概念Linux 系统中的Desktop Entry 文件以desktop为后缀名。Desktop Entry 文件是 Linux 桌面系统中用于描述程序启动配置信息的文件。进入/usr/share/applications 目录，可见如下图所示的各类软件图标，其对应为.desktop 结尾的文件二、具体操作1 在/usr/share/applications 目录下，新建以软件名

2017-02-10 20:39:38 44987 6

原创 shell命令 2>&1

在unix高级环境编程第三章的习题有一个问题： ./a.out > outfile 2>&1 # 1 ./a.out 2&1 > outfile # 2 问这两者有什么区别。这个首先的说明几点: 1.在unix和类unix（Linux之类）中以文件描述符的形式打开一个文件，这个文件描述符是一个非负数。 2.0代表标准输入，1代表标准输出，2代表标准错误输出 3.默认的情况下是1 所以

2016-12-27 14:27:04 585

原创 Spark入门_python

一.安装spark安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 - Spark安装与基础使用二.Spark Python参照官方文档–Spark Programming Guide任何Spark程序都SparkContext开始，SparkContext的初始化需要一个SparkConf对象。所以所有的Spark Python的第一句都应该是from pyspark impor

2016-12-26 20:54:24 625

原创返回函数参数问题

高阶函数除了可以接受函数作为参数外，还可以把函数作为结果值返回。def build(x,y): def g(): return x*x + y*y return g我们在函数build中又定义了函数g，并且，内部函数g可以引用外部函数build的参数和局部变量，当build返回函数g时，==相关参数和变量都保存在返回的函数中==，这种称为“闭包（Closure）”注意

2016-08-21 17:26:31 402

原创 MySQL的语句执行顺序

MySQL的语句执行顺序（1）第一种================================================================ MySQL的语句一共分为11步，如下图所标注的那样，最先执行的总是FROM操作，最后执行的是LIMIT操作。其中每一个操作都会产生一张虚拟的表，这个虚拟的表作为一个处理的输入，只是这些虚拟的表对用户来说是透明的，但是只有最后一个虚

2016-08-08 15:30:30 242

原创 Hive中NULL值（空值）处理

hive nullnull默认的存储都是\N，可以在建表时通过serialization.null.format的设置null不能进行算术运算，所有有null参与的运算结果都为nullhive> select null+2;OKNULL同样null=0，null!=0这类结果都为null，做判断条件时等效为falsehive> select > case when null=0

2016-07-31 22:03:45 21150

转载机器学习实践中的7种常见错误

统计建模非常像工程学。在工程学中，有多种构建键-值存储系统的方式，每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中，有很多分类器构建算法，每个算法构造一组不同的关于数据的假设集合。　　当处理少量数据时，尝试尽可能多的算法，然后挑选最好的一个的做法是比较合理的，因为此时实验成本很低。但当遇到“大数据”时，提前分析数据，然后设计相应“管道”模型（预处理，建模，优化算法，评价，产品

2016-05-02 20:52:06 311

原创逻辑回归（Logistic Regression）

一、什么是逻辑回归　　机器学习算法三要素：模型、参数、目标函数。　　　　1.模型　　设XX是连续随机变量，x\mathbf x服从logistic分布是指其具有下列分布函数和密度函数：F(x)=P(x≤x)=11+e−(x−u)/γF(x) = P(\mathbf x\le x) = \frac{1}{1+e^{-(x-u)/\gamma}}f(x)=F′(x)=e−(x−u)/γγ(1

2016-04-24 20:32:05 4153

翻译 1.1 广义线性模型

数学模型：y^=w0+w1x1+...+wpxp\hat y =w_0+w_1x_1+...+w_px_p 其中向量w=(w1,w2,...wp)w=(w_1,w_2,...w_p)为 coef_ ，w0w_0为 intercept_ 1.1.1 普通最小二乘法（OLS）　　用回归系数w=(w1,w2,...wp)w=(w_1,w_2,...w_p)来拟合线性模型，使得残差平方和（RSS)最小。

2016-04-14 22:34:23 351

原创《机器学习实战》小结

最近一段时间读了Peter Harrington 的Machine learning in action，对机器学习有个大致的了解，做个总结。一、书的组织结构　　全书分为4部分：监督学习（分类、回归）、无监督学习、其他工具。包含算法原理解释，并讲解Python实现算法的流程。读完能对机器学习方法有个大致了解。我主要细看第一部分，快速浏览了后面部分。分类kNN 计算输入实例与训练集中各实例的距离，

2016-04-11 22:47:32 522

原创 utf-8与utf-8无BOM的区别

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。　　BOM—Byte Order Mark，字节序标记　　UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符”ZERO WIDTH NO-BREAK SPACE”的UTF-8编码是EF BB BF。　　所以软件开发最好使用UTF

2016-03-27 17:20:20 1044

原创 kNN（k-nearest neighbor）理解与实现

一、理解　　kNN三要素：k值选择、距离度量、分类决策规则　　流程：计算输入实例与训练集中各实例的距离，选出K个最近邻训练实例点，然后根据这K个点多数类进行分类。　　k值选择:k值选得过小意味着用较小的邻域中的训练实例点来进行预测，易出现过拟合；k值过大则相反，易把不太相关的实例点也用来预测，导致出错　　距离度量：LpL_p距离等，常用欧氏距离二、实现def classify0(inX,

2016-03-26 16:50:55 444

原创瞎说

自己的学习资料一定要整理成电子版，备份到网上；网上的资料最好备份到本地

2015-12-25 18:46:34 287

原创 ADO方式操作数据库

ADO连接SQL server的方式已经在前文MFC使用ADO连接SQL Server 中进行过描述，接下来主要讲讲如何操作数据库。一、_RecordsetPtr介绍_RecordsetPtr智能指针，它是专门为通过记录集操作数据库而设立的指针，通过该接口可以对数据库的表内的记录、字段等进行各种操作。通过_RecordsetPtr实例化一个对象，m_pRecordset相当于数据库内容的备份，我们

2015-12-14 20:38:03 424

原创 MFC使用ADO连接SQL Server

一、背景介绍　　自动化等专业做简单应用，使用MFC还是很普遍的，连接数据库的方式也很多多种多样，这里主要介绍使用ADO方式连接数据库，数据库以SQL server 2008为例。二、ADO连接数据库　　1.在stdafx.h**最后*加上#import “c:\program files\common files\system\ado\msado15.dll” no_namespace rename

2015-12-14 17:11:30 807

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-12-14 16:32:37 290

Hive编程指南

统计学习方法，集体智慧编程，机器学习实战

vs2010 MFC+ADO方式连接sql server实现商品收费管理系统

空空如也