大数据 系列课程
文章平均质量分 93
数据库,结构化,非结构化,图数据库,python数据库脚本。设计mysql,mongo,postgres,redis,durid,clickhouse,hadoop生态系统,spark,hbase,hue,elasticsearch,presto,kafka,rabbitmq,hive,flink。
腾讯AI架构师
主要涉及领域 docker kubernetes 云原生技术,AI平台,大数据架构,python,分布式微服务,自动化运维
展开
-
索引利弊,如何创建索引,单键索引还是组合索引
** 索引的利弊与如何判定,是否需要索引**相信读者都知道索引能够极大地提高数据检索的效率,让Query 执行得更快,但是可能并不是每一位朋友都清楚索引在极大提高检索效率的同时,也给数据库带来了一些负面的影响。下面就分别对 MySQL 中索引的利与弊做一个简单的分析。索引的好处索引带来的益处可能很多读者会认为只是"能够提高数据检索的效率,降低数据库的IO成本"。确实,在数据库中表的某个字段...转载 2019-08-14 11:20:08 · 2467 阅读 · 0 评论 -
MySQL索引和SQL调优手册
MySQL索引和SQL调优本文有参考网上其他相关文章,本文最后有附参考的链接https://juejin.im/post/5a6873fbf265da3e393a97faMySQL索引MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用M...转载 2019-10-11 10:13:52 · 610 阅读 · 0 评论 -
RoaringBitmap 原理
前言位图索引被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。 Roaring Bitmaps 就是一种十分优秀的压缩位图索引,后文统称 RBM。压缩位图索引有很多种,比如基于 RLE(Run-LengthEncoding,运行长度编码)的WAH (Word Aligned Hybrid Compressi...转载 2019-10-11 10:12:59 · 4083 阅读 · 0 评论 -
neo4j的查询语法Cypher+python演示
MATCH查询节点根据label,属性的值查询单个(多个)节点。其中label,attr,value可以省略MATCH (node1_var :node1_label{attr1:value1,attr2:value2}),(node2_var :node2_label)RETURN node1_var.attr3,node2_var查询邻接点查询节点的相关节点(不区分方向),使用-...原创 2019-06-26 17:40:26 · 8858 阅读 · 2 评论 -
ubuntu系统下hbase数据库的安装和使用,hbase配置文件详解
安装首先从http://www.apache.org/dyn/closer.cgi/hbase/下载稳定版安装包,我下的是hbase-1.2.6-bin.tar.gz2.解压放在/usr/local的目录下3.修改权限sudo chown -R luanpeng hbase-1.2.6/4.修改文件夹的名称为hbase5.在~/.bashrc下添加,之后source一下...原创 2020-03-14 16:17:37 · 5599 阅读 · 1 评论 -
flink在k8s上的部署和使用教程
官网:https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/kubernetes.html原创 2019-04-02 19:02:21 · 17373 阅读 · 2 评论 -
Elasticsearch是如何做到快速索引的
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。原文:https://www.jianshu.com/p/ed7e1ebb2fb...转载 2019-09-26 13:30:12 · 509 阅读 · 0 评论 -
Elasticsearch 监控和优化(持续)
参考:https://blog.csdn.net/dujunjiehaha/article/details/72956879原创 2019-10-28 16:41:07 · 636 阅读 · 0 评论 -
分布式SQL查询引擎---presto介绍,连接器
http://my.525.life/article?id=1510739741973原创 2019-11-06 19:54:57 · 1362 阅读 · 0 评论 -
pyspark操作 rdd dataframe,pyspark.sql.functions详解 行列变换
官网文档可以参考:https://spark.apache.org/docs/latest/api/python/index.html我们采用本地实验的方式,来学习下语法face.csv文件内容如下image_id,device_id,date_str,age,gender,glass,hat,feat2019-03-09_8_0007f1a502433ee0d80c7f14c3bf7bc...原创 2019-08-05 15:28:31 · 5404 阅读 · 0 评论 -
SQLAlchemy 基础知识 - (autoflush 和 autocommit)(relationship 和 backref)(flask migrate迁移数据)
SQLAlchemy 基础下面是一段官方 SQLAlchemy 使用示例,我们从这个例子出发,认识 SQLAlchemy。from sqlalchemy import create_enginefrom sqlalchemy import Column, Integer, Stringfrom sqlalchemy.ext.declarative import declarative_ba...转载 2020-04-18 16:43:05 · 3543 阅读 · 0 评论 -
HBase Region 自动拆分策略
原文地址:https://cloud.tencent.com/developer/article/1374592HBase-2.x支持7种Region自动拆分Region的策略,类图如下:其中BusyRegionSplitPolicy是HBase-2.x新增的策略,其他6种在HBase-1.2.x中也可以使用。设置自动拆分策略的关键配置如下:hbase.regionserver.regi...转载 2019-07-24 15:22:26 · 3103 阅读 · 0 评论 -
Druid 简介,架构,部署,python连接,hue链接druid
https://help.aliyun.com/document_detail/72987.html?spm=a2c4g.11186623.6.675.5ebb7ba7mPowo3转载 2019-08-14 21:50:23 · 3047 阅读 · 0 评论 -
zeppelin k8s安装部署和基本使用教程(在线的分析工具)
官网地址: http://zeppelin.apache.org/docs/0.8.1/简介:Zeppelin是一个Apache的孵化项目.一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)多用途笔记本可实现你所需要的:数据采集数据发现数据分析...原创 2019-10-25 10:17:33 · 1631 阅读 · 1 评论 -
Hbase GC调优原理分析
实践中,HBase使用的内存不断增长,但JDK可用的垃圾收集算法仍然相同。这导致了HBase的许多用户的一个主要问题:随着Java使用堆大小继续增长,垃圾回收导致的“stop-the-world”时间变得越来越长。这在实践中意味着什么?在垃圾回收导致的“stop-the-world”期间,任何到HBase客户端请求都不会被处理,造成用户可见的延迟,甚至超时。如果因为暂停导致请求超过一分钟响应,H...转载 2019-03-10 17:32:16 · 4858 阅读 · 0 评论 -
Spark Standalone架构设计要点分析
参考:http://www.uml.org.cn/bigdata/2017011105.asp?artid=18894转载 2019-08-06 09:25:59 · 383 阅读 · 0 评论 -
hue安装使用,集成数据库
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,...原创 2019-06-27 13:39:25 · 2184 阅读 · 1 评论 -
clickhouse 部署+介绍
介绍Clickhouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(columnar DBMS)。传统数据库在数据大小比较小,索引大小适合内存,数据缓存命中率足够高的情形下能正常提供服务。但残酷的是,这种理想情形最终会随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查...原创 2019-08-13 22:47:47 · 5003 阅读 · 0 评论 -
面试数据结构试题
链表: 1、找出单链表的倒数第K个元素(仅允许遍历一遍链表)答:使用指针追赶的方法,定义一个fast指针和一个slow指针,fast指针先走K步,然后fast和slow同时继续走。当fast指针走到链表尾部时,slow指向的位置就是倒数第K个元素。注意:要考虑链表长度应该大于K。参考:剑指Offer(十四):链表中倒数第k个结点 2、找出单链表的中间元素(仅允许遍历一遍链表)...转载 2018-04-25 23:11:02 · 3839 阅读 · 0 评论 -
Highcharts数据可视化工具功能效果图详解
线图(折线图及曲线图)主要包括基本折线图、对数折线图、可缩放的时间轴、带标识的曲线图、通过 Ajax 加载数据、显示点值的折线图、坐标轴反转的曲线图、带表示区域的曲线图、时间不连续的曲线图。 基本折线图 可缩放的时间轴 带表示区的曲线图 时间不连续的曲线图 坐标轴翻转的曲线图面积图主要包括基础面积图、包含负值的面积图、堆叠面积图、百分比堆叠面积图、断裂的面积图、坐标轴反原创 2017-08-13 09:38:23 · 4296 阅读 · 0 评论 -
2020 各大厂分享ppt
1.用户增长数据技术驱动全渠道用户触达(网易严选)有赞数据驱动增长体系的建设(有赞)基于doris构建的小程序私域流量增长(智能小程序)2.知识图谱百度知识图谱技术及应用(百度)美团大脑系列商品知识图谱的构建及应用(美团)基于事理图谱的智能培训(贝壳)3.推荐算法深度树匹配召回体系演进(阿里妈妈)粗排技术体系与最新进展(阿里)EdgeRec:边缘计算在推荐系统中的应用(阿里)算力效能技术体系@阿里定向广告(阿里妈妈)多目标排序在快手短视频推荐中的实践(快手)多业务融合推原创 2020-12-29 23:52:51 · 3416 阅读 · 4 评论 -
hbase工作 架构原理
HBase BlockCache机制讲解&源码分析https://blog.csdn.net/bryce123phy/article/details/62051927转载 2018-12-17 17:04:44 · 1689 阅读 · 0 评论 -
海量数据处理的 Top K相关问题
Top-k的最小堆解决方法问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10)问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该问题。最小堆如图所示,对于每个非叶子节点的数值,一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的原创 2018-04-17 16:10:56 · 7975 阅读 · 0 评论 -
hbase权限管理(访问控制标签ACL)
默认情况下,访问hbase是不需要用户密码等认证方式的。开启认证HBase的权限管理依赖协协处理器。所以我们需要配置hbase.security.authorization=true,以及hbase.coprocessor.master.classes和hbase.coprocessor.master.classes使其包含org.apache.hadoop.hbase.security. a...原创 2019-01-03 09:16:40 · 5733 阅读 · 0 评论 -
Windows下的MySQL安装、MySQL-Front安装
全栈工程师开发手册 (作者:陈玓玏)Mysql数据库系统软件的安装访问“http://dev.mysql.com/downloads/windows/installer/”或http://rj.baidu.com/soft/detail/12585.html?ald&qq-pf-to=pcqq.c2c下载文件;如果没有Oracle账号,需要先注册;下载安装包后,直...原创 2017-09-03 11:39:18 · 5274 阅读 · 1 评论 -
docker 部署rabbitmq,k8s部署rabbitmq集群,跟踪和监控rabbitmq
docker部署rabbit在docker环境部署RabbitMQRabbitMQ是用 Erlang 编写的,直接部署的话需要先部署 Erlang 环境,比较麻烦。在 docker 环境下部署就比较简单了,直接使用rabbitmq官方提供的镜像即可。登录 docker 节点,运行docker pull rabbitmq:management这里使用的是带 web 管理插件的...原创 2018-08-26 20:36:43 · 10372 阅读 · 0 评论 -
win10 安装oracle11g R2的64位版本
下载win 64位操作系统 下载地址:http://download.oracle.com/otn/nt/oracle11g/112010/win64_11gR2_database_1of2.ziphttp://download.oracle.com/otn/nt/oracle11g/112010/win64_11gR2_database_2of2.zip安装解压解压缩...原创 2018-06-15 16:41:49 · 8495 阅读 · 0 评论 -
window下hive的安装
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此原创 2018-03-03 21:26:48 · 14918 阅读 · 8 评论 -
postgres数据库入门, python 操作postgres
安装需要的包 pip install psycopg2主要的api接口1 psycopg2.connect(database="testdb", user="postgres", password="cohondob&a原创 2019-02-11 10:24:40 · 2365 阅读 · 0 评论 -
spark 常用函数介绍(python)
RDDRDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。创建RDD:sc.par...原创 2018-05-17 15:13:01 · 6513 阅读 · 0 评论 -
k8s集群中 spark访问hbase中数据
首先我们需要对hbase的访问原理非常清除.可以参考:https://blog.csdn.net/luanpeng825485697/article/details/80319552我们这里已经在k8s中部署了hdfs和zookeeper以及hbase.部署可以参考: https://blog.csdn.net/luanpeng825485697/article/details/81985602...原创 2018-11-18 22:19:26 · 2126 阅读 · 0 评论 -
HBase因hostname可能引起的RIT问题。HBASE的ip和hostname坑
HBase的RegionServer会将自己的hostname上报到zookeeper,客户端连接zookeeper时,获取的是regionserver的hostname,再由hostname获得regionserver的ip地址。基于hbase的这种名称上报机制,客户端连接hbase时,需要能够ping通hbase的hostname,但是如果把hbase的hostname分发到所有的服务器上,毕...转载 2018-12-21 13:11:16 · 4823 阅读 · 0 评论 -
window下spark的安装和开发环境配置
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。安装java安装oracle下的jdk,我安装的是jdk 1.8的64位,这里必须安装64原创 2018-03-03 15:40:00 · 6940 阅读 · 1 评论 -
scala语法入门
Scala 特性面向对象特性 Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。函数式编程 Scala也是一种函数式语言,其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持柯里...转载 2018-05-25 10:50:43 · 4319 阅读 · 0 评论 -
zookeeper教程,docker 安装,命令,python操作zookeeper,分布式队列,分布式锁
zookeeper命令ZooKeeper客户端有C语言和Java两个版本。ZooKeeper的命令在/usr/lib/zookeeper/bin文件夹下。运行Java版本的客户端使用bash zkCli.sh -server IP:port ,运行C语言版本的使用./cli_mt IP:port,下面介绍Java版本的,C语言版差不多。查看具体结点信息root@ubuntu:/usr/l...原创 2019-03-06 09:37:45 · 725 阅读 · 0 评论 -
运行支持kubernetes原生调度的Spark程序
Spark 概念说明Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。在 Spark 中包括如下组件或概念:Application:Spark Application 的概念和 Hadoop 中的 MapReduce 类似,指的是用户编写的 Spark 应用程序...转载 2018-11-02 19:50:38 · 8319 阅读 · 7 评论 -
全文搜索引擎 Elasticsearch 入门(ik,kibana,x-pack)
全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它...原创 2018-07-02 11:38:31 · 5720 阅读 · 0 评论 -
hdfs+zookeeper+hbase分布式在k8s中部署(本文已过期)
hadoop+hbase+spark在k8s中部署原创 2018-08-26 14:16:28 · 10249 阅读 · 4 评论 -
Python下APScheduler的快速指南
APScheduler介绍APScheduler是基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。 APScheduler提供了多种不同的调度器,方便开发者根据自己的实际需要进行使用;同时也提供了不同的存储机制,可以方便与Redis,数据库等第三方的外部持久化机制进...转载 2018-11-23 15:48:52 · 4959 阅读 · 0 评论 -
k8s中实现自动数据库初始化(mysql,postgresql)
我们知道在代码里面创建数据库链接需要先有database, 但是我们刚刚部署的数据库可能还没有database或者没有指定权限的用户,这就要求我们在部署完数据库以后手动链接,创建数据库和用户. 有两种方式来实现自动化, 这里以mysql为例通过环境变量实现在k8s中部署mysql时,可以传环境变量指定,例如下面的yaml文件apiVersion: apps/v1kind: Deploy...原创 2019-01-17 11:11:55 · 9970 阅读 · 1 评论