- 博客(2202)
- 资源 (19)
- 收藏
- 关注
转载 轻松理解 Spark 的 aggregate 方法
https://www.cnblogs.com/chorm590/p/spark_201904201159.html2019-04-20关键字:Spark 的 agrregate作用、Scala的 aggregate是什么Spark编程中的 aggregate方法还是比较常用的。本篇文章站在初学者的角度以大白话的形式来讲解一下 aggregate方法。agg...
2019-04-21 12:14:12 463
转载 一文入门HTML5
https://www.cnblogs.com/dotnetcrazy/p/10542063.html文章汇总:https://www.cnblogs.com/dotnetcrazy/p/9160514.html目录:1.1.语义标签 1.1.1.基础 效果图 1.1.2.兼容 1.1.3.解决 兼容方案 1.2.多媒体标签 video and audio 扩展...
2019-04-16 21:52:01 309
转载 大数据技术 - MapReduce的Shuffle及调优
大数据技术 - MapReduce的Shuffle及调优https://www.cnblogs.com/duma/p/10704544.html本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:1.map 任务输出的数据分组、排...
2019-04-16 21:43:21 485
转载 判断点在多边形内算法的C++实现
https://www.cnblogs.com/charlee44/p/10704156.html目录1. 算法思路 2. 具体实现 3. 改进空间1. 算法思路判断平面内点是否在多边形内有多种算法,其中射线法是其中比较好理解的一种,而且能够支持凹多边形的情况。该算法的思路很简单,就是从目标点出发引一条射线,看这条射线和多边形所有边的交点数目。如果有奇数个交点,则说明在内部,如果...
2019-04-15 00:39:35 2476
转载 Spark读写HBase实践
Spark读写HBase实践https://www.jianshu.com/p/49141df754a2Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。1.1 maven依赖需要引入Hadoop和HBase的相关依赖,版本信息根据实际情况确定。 &l...
2019-04-10 02:04:36 235
转载 Java Native Interface调用C++代码
Java Native Interface调用C++代码https://www.cnblogs.com/dslx/p/10668733.html概述Java Native Interface译为Java原生接口,简称JNI。Java并不是完美的,它的不足体现在运行速度要比传统的C++慢上许多,并且无法直接访问到操作系统底层,为此Java提供了JNI实现对于底层访问。说得通俗点,通过JN...
2019-04-10 00:34:22 337
转载 分布式数据库中的事务时序
https://www.cnblogs.com/cchust/p/10591943.html概述在单机数据库领域,我们为每个事务都分配一个序列号,比如Oracle的SCN(SystemChangeNumber),MySQL的LSN(LogSequenceNumber),这个序列号可以是逻辑的,也可以是物理的。我们依赖这个序列号对系统中发生的事务进行排序,确保所有事务都有严格的先后关系。数据...
2019-03-25 16:29:31 639
转载 第一届天池 PolarDB 数据库性能大赛
http://wangyapu.com/2019/02/01/tianchi_polar_db/?utm_source=tuicool&utm_medium=referral这次天池 PolarDB 数据库性能大赛竞争相当激烈,眼睛一闭一睁成绩就会被血洗,最后榜单成绩是第三名,答辩翻车了,最终取得了大赛季军。云计算领域接触的是最前沿的技术,阿里云的 PolarDB 作为云原生数据库里程...
2019-02-06 21:34:45 604
转载 大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda
https://www.cnblogs.com/chenmingjun/p/10353274.html第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 第3章 HDFS客户端操作(开发重点) 3.1 HDFS客户端环境...
2019-02-06 12:55:43 580
转载 magic_get - A reflection techniques using modern C++
http://purecpp.org/detail?id=2055magic_get是一个很有趣的C++反射库,它不需要让开发者显式地做额外的事情,但是限制是反射的类型必须是Aggregate Initializable. 在它出现之前,我们碰到需要反射这一类问题都是怎么处理的呢?1. 传统的反射标记: 侵入式与非侵入式对于标准输入输出流,我们要重载operator << ...
2019-01-02 01:22:09 1359
转载 现代 C++ 编译时 结构体字段反射
https://www.cnblogs.com/BOT-Man/p/10203562.html基于 C++ 14 原生语法,不到 100 行代码:让编译器帮你写 JSON 序列化/反序列化代码,告别体力劳动。
2019-01-02 00:01:52 2434
转载 TiDB 架构及设计实现
https://www.cnblogs.com/xuliuzai/p/10022875.html一. TiDB的核心特性高度兼容 MySQL 大多数情况下,无需修改代码即可从 MySQL 轻松迁移至 TiDB,分库分表后的 MySQL 集群亦可通过 TiDB 工具进行实时迁移。水平弹性扩展 通过简单地增加新节点即可实现 TiDB 的水平扩展,按需扩展吞吐或存储,...
2018-11-26 23:00:00 651
转载 Windbg程序调试系列5-高CPU问题分析
转自:周国庆 https://www.cnblogs.com/tianqing/p/10016778.htmlWindbg程序调试系列4-Live Debugging本篇中我们继续,跟大家分享常见的应用程序高CPU使用率问题分析。先说Windows下CPU使用率这个概念:CPU使用率:在任务管理器的刷新周期内CPU忙的时间与整个刷新周期的比值。默认的刷新周期是1s。即1s内,反...
2018-11-25 23:19:08 1232
转载 【大数据安全】基于Kerberos的大数据安全验证方案
https://www.cnblogs.com/mantoudev/p/9877433.html1.背景互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。...
2018-11-04 15:07:35 584
转载 如果我是一线技术主管
https://www.cnblogs.com/dolphinX/p/9893056.html如果我是一线技术主管,可能曾经是团队综合实力最强的,被时间支配不能再每天写代码,但团队各种挑战依旧在如果我是一线技术主管,每周也要写周报,每年也要写绩效,想晋升、加薪、人生巅峰云云如果我是一线技术主管,团队有五、六个人还好,十几个人的团队的话会希望有人可以站出来帮我不抱怨如果我是一线技...
2018-11-01 23:16:08 317
转载 机器学习分类算法常用评价指标
https://www.cnblogs.com/asialee/p/9800039.html1. 准确率,召回率,精确率,F1-score,Fβ,ROC曲线,AUC值为了评价模型以及在不同研究者之间进行性能比较,需要统一的评价标准。根据数据挖掘理论的一般方法,评价模型预测能力最广泛使用的是二维混淆矩阵(Confusion matrix)(如下表所示)。二维混淆矩阵 真实类别...
2018-10-17 01:42:11 6682
转载 Hive 官方手册翻译 -- Hive DDL(数据定义语言)
https://www.cnblogs.com/fanzhenyong/p/9746796.htmlHive 官方手册翻译 -- Hive DDL(数据定义语言)目录一、概述 二、关键词,非保留关键字和保留关键字 三、创建/删除/修改/使用数据库 3.1、 创建数据库 3.2、 删除数据库 3.3、 修改数据库 3.4、 使用数据库 四、创建/删除/截断表...
2018-10-07 22:13:47 600
转载 SPARK2.1.0模型设计与基本架构(下)
SPARK2.1.0模型设计与基本架构(下)https://www.cnblogs.com/jiaan-geng/p/9708246.html阅读提示:读者如果对Spark的背景知识不是很了解的话,建议首先阅读《SPARK2.1.0模型设计与基本架构(上)》一文。SPARK模型设计1. Spark编程模型正如Hadoop在介绍MapReduce编程模型时选择word count...
2018-10-01 17:12:28 295
转载 Redis中单机数据库的实现
https://www.cnblogs.com/neooelric/p/9629948.html1. 内存操作层 zmalloc 系接口redis为了优化内存操作, 封装了一层内存操作接口. 默认情况下, 其底层实现就是最简朴的libc中的malloc系列接口. 如果有定制化需求, 可以通过配置方式, 将底层内存操作的实现更换为tcmalloc或jemalloc库.redis封装的这一...
2018-09-12 00:03:12 440
转载 Quartz+Spring Boot实现动态管理定时任务
https://www.cnblogs.com/wujiwen/p/9615120.html项目实践过程中碰到一个动态管理定时任务的需求:针对每个人员进行信息的定时更新,具体更新时间可随时调整、启动、暂定等。思路将每个人员信息的定时配置保存到数据库中,这样实现了任务的动态展示和管理。任务的每一次新增或变更,都会去数据库变更信息。设置一个统一的任务管理器,专门负责动态任务的增删改...
2018-09-09 22:48:25 749
转载 金融数据分析与挖掘具体实现方法 -1
https://www.cnblogs.com/wf-skylark/p/9551967.html有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结。首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明。1 先来了解一下什么是金融市场呢?通常狭义...
2018-08-29 23:17:31 1518
转载 基础爬虫架构有五大模块
https://www.cnblogs.com/guguobao/p/9544626.html爬虫调度器:负责统筹其他四个模块的协调工作 URL管理器:管理URL链接,维持已经爬取的URL集合和未爬取的URL集合,提供新的URL链接接口 HTML下载器: 用于从URL管理器中获取未爬虫的URL链接并下载HTML网页 HTML解析器:从HTML下载器中获取已经下载的HTML网页,并从中解析...
2018-08-27 21:29:41 3723
转载 每秒高达1.6亿次操作的并发键值存储库 FASTER 诞生
https://www.cnblogs.com/xiaoliangge/p/9539735.htmlFASTER在过去十年中,云中的数据密集型应用程序和服务有了巨大的增长。数据在各种边设施(例如,设备,浏览器和服务器)上创建,并由云应用程序处理用来获得数据价值或做出决策。应用程序和服务可以处理收集的数据,也可以实时监控数据。这些应用程序通常是更新密集型的,并且涉及大量的状态,超出了适合主存...
2018-08-27 21:02:32 411
转载 HBase性能调优总结
https://www.cnblogs.com/frankdeng/p/9529044.html一. HBase的通用优化1 高可用 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBa...
2018-08-25 23:17:07 2400
转载 Raft协议的理解与分析
http://tech.dianwoda.com/2018/08/24/raftfen-bu-shi-zhi-xing-xie-yi/?utm_source=tuicool&utm_medium=referral Paxos是最早的分布式一致性算法,虽然出来了很多年,但因其不容易理解,且实现难度较大,目前比较成熟的Multi-Paxos实现依然比较少。Raft算法是近几年很火的一个分布...
2018-08-25 11:51:34 811
转载 SparkSql学习笔记(包含IDEA编写的本地代码)
SparkSql学习笔记(包含IDEA编写的本地代码) Spark SQL and DataFrame1.为什么要用Spark Sql原来我们使用Hive,是将Hive Sql 转换成Map Reduce 然后提交到集群上去执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢,所以Spark Sql的应运而生,它是将SparkSql转...
2018-08-22 22:55:41 496
转载 MyBatis 源码分析 - SQL 的执行过程
https://www.cnblogs.com/nullllun/p/9503612.html本篇文章较为详细的介绍了 MyBatis 执行 SQL 的过程。该过程本身比较复杂,牵涉到的技术点比较多。包括但不限于 Mapper 接口代理类的生成、接口方法的解析、SQL 语句的解析、运行时参数的绑定、查询结果自动映射、延迟加载等。本文对所列举的技术点,以及部分未列举的技术点都做了较为详细的分析。...
2018-08-21 00:11:38 320
转载 从oracle往greenplum迁移,查询性能不满足要求的定位以及调优过程
https://www.cnblogs.com/qiannianyuan/p/9463312.html目录一、前言 二、环境信息 三、优化过程 3.1 结果对比 3.2 分析过程 3.3 问题解决 3.4 最终结果 四、参考资料 回到顶部一、前言在一次对比oracle和greenplum查询性能过程中,由于greenplum查询性能...
2018-08-13 01:13:42 1228
转载 Hive(十)Hive性能优化总结
https://www.cnblogs.com/frankdeng/p/9463897.html一、Fetch抓取 1、理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在...
2018-08-13 01:10:46 16116 4
转载 Spark Streaming + Kafka集成指南
https://www.cnblogs.com/frankdeng/p/9308585.htmlKafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。注意:从Spark 2.3.0开始,不推荐使用Kafka 0.8支持。Sp...
2018-07-16 00:39:11 390
转载 Spark(三)Spark之RDD
https://www.cnblogs.com/frankdeng/p/9301653.html一、RDD的概述1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查...
2018-07-14 00:38:19 291
转载 PgSQL · 特性分析 · MVCC机制浅析
https://yq.aliyun.com/articles/608911?spm=a2c4e.11153940.bloghomeflow.59.399d291acgr606PgSQL · 特性分析 · MVCC机制浅析摘要: 背景 我们在使用PostgreSQL的时候,可能会碰到表膨胀的问题(关于表膨胀可以参考之前的月报),即表的数据量并不大,但是占用的磁盘空间比较大,查询比较慢。为什么Post...
2018-07-12 17:09:59 1516
转载 go语言之行--网络编程、http处理流程详情
https://www.cnblogs.com/wdliu/p/9284459.html一、简介go语言中的网络编程主要通过net包实现,net包提供了网络I/O接口,包括HTTP、TCP/IP、UDP、域名解析和Unix域socket等。和大多数语言一样go可以使用几行代码便可以启动一个服务器,但是得益于goroutine的配合go实现的服务器拥有强大并发处理能力。二、socket编程Socke...
2018-07-09 21:52:49 417
转载 云主机搭建Kubernetes 1.10集群
https://www.cnblogs.com/aubin/p/9284633.html一、基础环境云主机下载软件包将所有软件下载至/data目录# 链接:https://pan.baidu.com/s/13DlR1akNBCjib5VFaIjGTQ 密码:1l69master到node做免密认证ssh-keygenssh-copy-id root@192.168.1.237ssh-copy-...
2018-07-09 21:48:02 728
转载 Spark MLlib 之 aggregate和treeAggregate从原理到应用
https://www.cnblogs.com/xing901022/p/9285898.html在阅读spark mllib源码的时候,发现一个出镜率很高的函数——aggregate和treeAggregate,比如matrix.columnSimilarities()中。为了好好理解这两个方法的使用,于是整理了本篇内容。由于treeAggregate是在aggregate基础上的优化版本,因此...
2018-07-09 21:45:29 705
转载 Redis Codis 部署安装
https://www.cnblogs.com/zhoujinyi/p/9249873.html背景关于Redis的高可用除了只身的Sentinel和Cluster之外,还有一个用的比较多的是Codis,由于公司的Redis大部分都使用Codis,本文就针对Codis进行相关的安装部署进行说明,来好好的学习Codis。介绍Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接...
2018-07-08 11:17:03 506
转载 makefile编译子目录
https://www.cnblogs.com/iclodq/p/9276609.htmlmake子目录常用方法一般是SUB_DIR = lib_src service.PHONY: subdirs $(SUB_DIR)subdirs: $(SUB_DIR)$(SUB_DIR): @+make -C $@ foo: baz或者subdirs: for dir...
2018-07-07 14:24:48 5479
转载 hive优化分享
https://www.cnblogs.com/SunHuaJ/p/9244899.html 简述hive构建在hadoop基础上,利用分布式存储,通过mr引擎实现对大数据的计算。MR会频繁地读写磁盘而且MR任务的启动成本很高。对于hive优化显得尤为重要。而优化的核心就是更好地利用hadoop的分布式特性和hive的有点。本篇从IO、参数设置、案例实战来说明如何优化我们的hive。受限于个人能力...
2018-06-29 23:31:12 249
转载 机器学习算法 --- Decision Trees Algorithms
https://www.cnblogs.com/God-Li/p/9179039.html一、Decision Trees Agorithms的简介 决策树算法(Decision Trees Agorithms),是如今最流行的机器学习算法之一,它即能做分类又做回归(不像之前介绍的其他学习算法),在本文中,将介绍如何用它来对数据做分类。 本文参照了Madhu Sanjeevi ( Mady ...
2018-06-13 21:12:09 616
转载 追源索骥:透过源码看懂Flink核心框架的执行流程
https://www.cnblogs.com/bethunebtj/p/9168274.html写在最前:因为这篇博客太长,所以我把它转成了带书签的pdf格式,看起来更方便一点。想要的童鞋可以到我的公众号“老白讲互联网”后台留言flink即可获取。追源索骥:透过源码看懂Flink核心框架的执行流程flink追源索骥:透过源码看懂Flink核心框架的执行流程前言1.从 Hello,World Wo...
2018-06-11 23:34:17 3462 2
Go语言编程
2015-10-06
C++标准程序库_带书签版本
2013-06-25
无懈可击的web设计
2012-10-27
[五笔打字与输入技巧六日速成].甘登岱.扫描版.pdf
2012-10-27
[Objective-C基础教程].Mark.Dalrymple.&.Scott.Knaster.扫描版.pdf
2012-09-16
java 编程艺术
2012-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人