自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

野生大头鱼

请说出有关积累的名言警句

  • 博客(47)
  • 资源 (3)
  • 收藏
  • 关注

转载 分布式系统的CAP和BASE理论

背景网络分区:俗称“脑裂”。当网络发生异常情况,导致分布式系统中部分节点之间的网络延时不断变大,最终导致组成分布式系统的所有节点中,只有部分节点之间能够进行正常通信,而另一些节点则不能。当网络分区出现时,分布式系统会出现局部小集群。CAPCAP理论指的是在一个分布式系统中,不可能同时满足Consistency(一致性)、Availablity(可用性)、Partition toler...

2019-09-22 23:42:11 268

原创 [JanusGraph]图数据库JanusGraph简介

JanusGraph简介到2019年12月31号之前会完成图数据库JanusGraph的一系列笔记

2019-09-22 22:52:43 234

原创 【论文阅读第二期】The Wisdom of the few

论文阅读第二期的文章《The Wisdom of the few》讲的是基于专家观点的协同过滤推荐算法,是一篇2009年的文章。作者Xavier Amatriain是推荐系统领域的一位大牛,最早主导了Netflix的推荐系统,后来去了Quora,现在自己创办公司Curai研究AI。因为本人对推荐系统了解比较少,所以只是略读了文章,做一个简单的总结:1. 文章摘要;2.什么是协同过滤1. 文章摘...

2018-11-17 15:12:20 544

原创 【论文阅读第一期】Goods:Organizing Google’s Datasets总结

论文阅读第一期的文章《Goods:Organizing Google’s Datasets》讲的是关于谷歌在海量元数据管理方面的实践。本篇总结主要从3个方面进行展开:1.什么是元数据;2.如何管理元数据;3.启发与总结1.什么是元数据元数据被称之为描述数据的数据,记录的是文件的特征,包括数据属性、拥有者、权限、数据块等信息。无论是mysql、oracle这样的关系型数据库,还是Hive、HBa...

2018-10-25 23:27:00 1019

原创 【代码规范】公共常量封装:接口、枚举还是普通类

1. 背景虽然项目组定义了软件开发规范,包括了技术选型、接口规范等,但是在实际执行中还是存在一些不足。本文所记录的常量封装就是其中一个问题,目前项目中关于常量的封装存在3种形式,比较混乱。通过查阅相关资料,对使用目的、各封装形式的优缺点进行分析,给出常量封装的推荐使用规范。2. 3种封装形式普通类public class ErrorCodeConstant { public fina...

2018-10-09 23:02:31 1391 1

原创 【Spring Boot入门】AOP基础及Advice的执行顺序

本文主要分为两个部分,首先介绍AOP的基础,包括为什么要使用AOP以及AOP中的基本概念,然后讲解AOP中各类Advice的执行顺序并给出简单示例。一、AOP基础1、为什么要使用AOPAOP(Aspect Oriented Programming,面向切面编程),是Spring框架中的一个重要概念,那么面向切面编程有什么好处呢。 如下图所示,我们传统的编程方式是垂直化的编程,...

2018-08-01 23:25:58 2283 1

原创 Hive join优化(mapjoin,streamtable)

一、 Join语法Hive支持的join语法:join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference L

2017-10-12 22:14:48 3686

转载 Spark 中的宽依赖和窄依赖

文章转自houmouSpark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子

2017-09-21 21:33:28 573

转载 RDD论文翻译 --弹性分布式数据集:一种基于内存的集群计算的容错性抽象方法

弹性分布式数据集(RDD,Resilient Distributed Dataset)论文翻译

2017-09-04 15:01:22 1387

转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据

2017-08-22 19:13:42 325

转载 Hadoop发行版

Hadoop在大数据领域的应用前景很大,不过因为是开源技术,实际应用过程中存在很多问题。于是出现了各种Hadoop发行版,国外目前主要是三家创业公司在做这项业务:Cloudera、Hortonworks和MapR。 Cloudera和MapR的发行版是收费的,他们基于开源技术,提高稳定性,同时强化了一些功能,定制化程度较高,核心技术是不公开的。营收主要来自软件收入,国内的星环科技盈利模式与之类似。

2017-07-14 22:32:14 485

原创 Hive提示警告SSL

一、问题Hive能正常执行任务,但出现“WARN: Establishing SSL connection without server’s identity verification is not recommended.”告警,翻译过来就是“不建议不使用服务器身份验证建立SSL连接。”Thu Jun 15 12:56:05 CST 2017 WARN: Establishing SSL conn

2017-06-15 16:00:26 11308 9

原创 Hive元数据库介绍及信息查看

一、概念Hive中有两类数据:表数据和元数据。和关系型数据库一样,元数据可以看做是描述数据的数据,包括1.hive表的数据库名、表名、字段名称与类型、分区字段与类型 2.表及分区的属性、存放位置等 元数据存储路径和內表一样,分为本地和远程,可通过hive-site.xml文件设置 二、元数据库信息元数据库中存在以下这些表: 元数据ER图 元数据表结构详解看参见lxw的文章三、如何查看元数据库

2017-06-14 23:00:05 16043

转载 魅族大数据之用户洞察平台介绍

一、总体介绍1.1. 用户洞察平台的定位魅族 UIP(用户洞察平台),通过对三方受众数据的汇聚、清洗、智能运算,构建了庞大的精准人群数据中心,提供丰富的用户画像数据以及实时的场景识别力。对内:无缝对接各类业务平台的数据应用,如广告平台、PUSH推送、个性化推荐之间建立了数据通道,支持公司级的精准营销,消息及时送达服务等场景。营销效果评估,反馈数据可进一步加工,用于提

2017-06-12 10:06:36 2880

原创 Hive开发经验总结

了解Hive的基本概念 对Hive基本概念的了解,有助于对移动开发平台的理解与掌握,便于项目开展。尤其是其与普通关系型数据库的区别。 数据倾斜(Data skew) 概念:简单理解就是数据分布不均匀。有这么一种说法:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 产生场景:

2017-06-06 20:22:50 642

原创 Hive编程入门指南

一、基本概念1. 定义Hive是基于Apache Hadoop的数据仓库基础架构,用于读取,写入和管理存储在分布式系统中的大型数据集,并使用SQL语法进行查询。Hive建立在Hadoop之上,具有以下功能:通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析。A mechanism to impose structure on a variety of

2017-05-23 23:00:36 3026

转载 Kaggle 数据挖掘比赛经验分享 (转载)

作者简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者

2017-05-22 15:57:47 730

翻译 kafka教程-基本概念

一、基本概念Kafka™用于构建实时数据流水线和流媒体应用,具有水平可扩展性,容错性,并在数千家公司得到了应用。 流媒体平台(streaming platform)有三个关键功能: 1. 发布和订阅记录流。 在这方面,类似于消息队列或企业消息系统。 2. 以容错方式存储记录流。 3. 实时处理记录流。Kafka被用于两大类应用程序: 1. 构建可在系统或应用程序之间可靠获取数据的

2017-05-10 22:15:37 472

原创 sbt安装及测试

一、概念sbt是Scala,Java等的构建工具,要求Java 1.6及以上。Spark由Scala语言实现,在Spark学习使用过程中经常要用到sbt工具。 sbt官网有比较详尽的使用教程,且有英语、中文、日语等版本,建议大家直接查看官网教程,本文主要包括sbt的安装及使用其编译完成WordCount程序。二、安装sbt的安装分为两部分: a launcher JAR and a shell s

2017-05-09 14:39:14 2432

原创 Spark Streaming学习(1)

Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多来源中获取,并且可以使用由高级功能(如map,reduce,join和window)表达的复杂算法进行处理,处理后的数据可以推送到文件系统,数据库和实时仪表板。 也可以在数据流上应用Spark的机器学习和图形处理算法

2017-05-08 16:51:51 281

转载 详解pycharm新建文件时头部的模板

 原文地址:点击打开链接pycharm新建文件时的头部模板,即默认的:author = ‘$USER’,pycharm下依次“File→settings→Editor→File and Code Template”即可找到界面,如下: 如何对pycharm头部模板进行个人的全新定制呢?JetBrains的官方帮助文档里说的很详细了,这里画蛇添足赘述一下,努力做到详细精确,傻瓜操作,...

2017-05-04 22:12:43 1540 1

转载 Hive SQL的编译过程

原文地址:Hive SQL的编译过程Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hi

2017-05-03 14:31:33 524

原创 Hive 数据倾斜总结()

数据倾斜概念、原因、场景、解决方法概念:数据倾斜(Data skew)是指 https://my.oschina.net/leejun2005/blog/100922http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236eb1cb4f7374387a235&scene=0#wec

2017-05-03 14:25:25 324

原创 MySQL自带数据库

本文主要从应用的角度总结MySQL常用但易忘的知识点:一. MySQL自带数据库MySQL安装后至少自带4个默认数据库:information_schema、mysql、performance_schema、test 注意:1.需要使用root账号登陆才能看到这些数据库;2.使用mysql语句能直接登陆MySQL服务器是因为mysql数据库下user表中存在user为空的行 in

2017-04-10 22:40:25 1551

原创 Ubuntu16.04 创建桌面快捷方式

一、基本概念Linux 系统中的Desktop Entry 文件以desktop为后缀名。Desktop Entry 文件是 Linux 桌面系统中用于描述程序启动配置信息的文件。 进入/usr/share/applications 目录,可见如下图所示的各类软件图标 ,其对应为.desktop 结尾的文件 二、具体操作1 在/usr/share/applications 目录下,新建以软件名

2017-02-10 20:39:38 44987 6

原创 shell命令 2>&1

在unix高级环境编程第三章的习题有一个问题: ./a.out > outfile 2>&1 # 1 ./a.out 2&1 > outfile # 2 问这两者有什么区别。这个首先的说明几点: 1.在unix和类unix(Linux之类)中以文件描述符的形式打开一个文件,这个文件描述符是一个非负数。 2.0代表标准输入,1代表标准输出,2代表标准错误输出 3.默认的情况下是1 所以

2016-12-27 14:27:04 585

原创 Spark入门_python

一.安装spark安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 - Spark安装与基础使用二.Spark Python参照官方文档–Spark Programming Guide任何Spark程序都SparkContext开始,SparkContext的初始化需要一个SparkConf对象。所以所有的Spark Python的第一句都应该是from pyspark impor

2016-12-26 20:54:24 625

原创 返回函数 参数问题

高阶函数除了可以接受函数作为参数外,还可以把函数作为结果值返回。def build(x,y): def g(): return x*x + y*y return g我们在函数build中又定义了函数g,并且,内部函数g可以引用外部函数build的参数和局部变量,当build返回函数g时,==相关参数和变量都保存在返回的函数中==,这种称为“闭包(Closure)”注意

2016-08-21 17:26:31 402

原创 MySQL的语句执行顺序

MySQL的语句执行顺序 (1)第一种================================================================ MySQL的语句一共分为11步,如下图所标注的那样,最先执行的总是FROM操作,最后执行的是LIMIT操作。其中每一个操作都会产生一张虚拟的表,这个虚拟的表作为一个处理的输入,只是这些虚拟的表对用户来说是透明的,但是只有最后一个虚

2016-08-08 15:30:30 242

原创 Hive中NULL值(空值)处理

hive nullnull默认的存储都是\N,可以在建表时通过serialization.null.format的设置null不能进行算术运算,所有有null参与的运算结果都为nullhive> select null+2;OKNULL同样null=0,null!=0这类结果都为null,做判断条件时等效为falsehive> select > case when null=0

2016-07-31 22:03:45 21150

转载 机器学习实践中的7种常见错误

统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。  当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品

2016-05-02 20:52:06 311

原创 逻辑回归(Logistic Regression)

一、什么是逻辑回归  机器学习算法三要素:模型、参数、目标函数。      1.模型   设XX是连续随机变量,x\mathbf x服从logistic分布是指其具有下列分布函数和密度函数:F(x)=P(x≤x)=11+e−(x−u)/γF(x) = P(\mathbf x\le x) = \frac{1}{1+e^{-(x-u)/\gamma}}f(x)=F′(x)=e−(x−u)/γγ(1

2016-04-24 20:32:05 4153

翻译 1.1 广义线性模型

数学模型:y^=w0+w1x1+...+wpxp\hat y =w_0+w_1x_1+...+w_px_p 其中向量w=(w1,w2,...wp)w=(w_1,w_2,...w_p)为 coef_ ,w0w_0为 intercept_ 1.1.1 普通最小二乘法(OLS)  用回归系数w=(w1,w2,...wp)w=(w_1,w_2,...w_p)来拟合线性模型,使得残差平方和(RSS)最小。

2016-04-14 22:34:23 351

原创 《机器学习实战》小结

最近一段时间读了Peter Harrington 的Machine learning in action,对机器学习有个大致的了解,做个总结。一、书的组织结构  全书分为4部分:监督学习(分类、回归)、无监督学习、其他工具。包含算法原理解释,并讲解Python实现算法的流程。读完能对机器学习方法有个大致了解。我主要细看第一部分,快速浏览了后面部分。分类kNN 计算输入实例与训练集中各实例的距离,

2016-04-11 22:47:32 522

原创 utf-8与utf-8无BOM的区别

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。   BOM—Byte Order Mark,字节序标记   UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符”ZERO WIDTH NO-BREAK SPACE”的UTF-8编码是EF BB BF。   所以软件开发最好使用UTF

2016-03-27 17:20:20 1044

原创 kNN(k-nearest neighbor)理解与实现

一、理解  kNN三要素:k值选择、距离度量、分类决策规则   流程:计算输入实例与训练集中各实例的距离,选出K个最近邻训练实例点,然后根据这K个点多数类进行分类。   k值选择:k值选得过小意味着用较小的邻域中的训练实例点来进行预测,易出现过拟合;k值过大则相反,易把不太相关的实例点也用来预测,导致出错   距离度量:LpL_p距离等,常用欧氏距离二、实现def classify0(inX,

2016-03-26 16:50:55 444

原创 瞎说

自己的学习资料一定要整理成电子版,备份到网上;网上的资料最好备份到本地

2015-12-25 18:46:34 287

原创 ADO方式操作数据库

ADO连接SQL server的方式已经在前文MFC使用ADO连接SQL Server 中进行过描述,接下来主要讲讲如何操作数据库。一、_RecordsetPtr介绍_RecordsetPtr智能指针,它是专门为通过记录集操作数据库而设立的指针,通过该接口可以对数据库的表内的记录、字段等进行各种操作。通过_RecordsetPtr实例化一个对象,m_pRecordset相当于数据库内容的备份,我们

2015-12-14 20:38:03 424

原创 MFC使用ADO连接SQL Server

一、背景介绍  自动化等专业做简单应用,使用MFC还是很普遍的,连接数据库的方式也很多多种多样,这里主要介绍使用ADO方式连接数据库,数据库以SQL server 2008为例。二、ADO连接数据库  1.在stdafx.h**最后*加上#import “c:\program files\common files\system\ado\msado15.dll” no_namespace rename

2015-12-14 17:11:30 807

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-12-14 16:32:37 290

Hive编程指南

市场中第一本Hive图书。, Hive在Hadoop系统中的应用趋势比较可观。

2017-06-05

统计学习方法,集体智慧编程,机器学习实战

包含统计学习方法,集体智慧编程,机器学习实战3本书

2016-05-05

vs2010 MFC+ADO方式连接sql server实现商品收费管理系统

以vs2010编写的MFC,用ADO方式连接sql2008,实现商品收费管理功能,包括扫码收费、商品增删查显等功能

2015-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除