
大数据 系列课程 快速学习实战应用
数据库,结构化,非结构化,图数据库,python数据库脚本。设计mysql,mongo,postgres,redis,durid,clickhouse,hadoop生态系统,spark,hbase,hue,elasticsearch,presto,kafka,rabbitmq,hive,flink。
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅博主任意付费专栏,享有该博主全部专栏一年阅读权限。
本专栏为虚拟产品,一经付款概不退款,敬请谅解。
腾讯数据架构师
主要涉及领域 docker kubernetes 云原生技术,大数据架构,分布式微服务,自动化测试、运维,AI平台
-
原创 各大厂大数据精品分享汇总(进阶版)
关注公众号,在微信端打开。2020-11-23 11:23:091217
0
-
原创 微服务架构系列文章、精品教程
架构系列文章大全2020-03-30 22:35:509906
6
-
原创 python系列文章(基础,应用,后端,运维,自动化测试,爬虫,数据分析,可视化,机器学习,深度学习系列内容)
python基础教程python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器python基础系列教程——Python库的安装与卸载python基础系列教程——Python3.x标准模块库目录python基础系列教程——Python中的编码问题,中文乱码问题python基础系列教程——python基础语法全解python...2019-11-07 15:42:48165400
157
-
原创 开源媒体标注系统cvat
github地址: https://github.com/opencv/cvat安装方法git clone https://github.com/opencv/cvat.gitcd cvatdocker-compose build # 构建前后端镜像,如果构建中有网络访问不到,注意关闭代理docker-conpose up -d # 启动docker exec -it cvat bash -ic 'python3 ~/manage.py createsuperuser' #2020-05-28 23:39:051086
2
-
转载 MySQL索引和SQL调优手册
MySQL索引和SQL调优本文有参考网上其他相关文章,本文最后有附参考的链接https://juejin.im/post/5a6873fbf265da3e393a97faMySQL索引MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用M...2019-10-11 10:13:52213
0
-
原创 python数据存储系列教程——python中redis数据库操作:连接、增删查改、多级路径
全栈工程师开发手册 (作者:陈玓玏) python教程全解调试环境python3.6,调试python操作redis数据库,首先要在本地或服务器安装redis数据库。安装参考:http://blog.csdn.net/luanpeng825485697/article/details/79363000在python3.6下我们使用redis库。pip install re2018-02-26 11:43:207914
1
-
原创 windows下安装Redis数据库
redis下载安装下载地址:https://github.com/MSOpenTech/redis/releases。Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。redis配置Redis 的配置文件位于 Redis 安装目录下,文件名为 redis.window2018-02-24 16:45:182821
0
-
原创 python数据存储系列教程——python中mongodb数据库操作:连接、增删查改、多级路径
全栈工程师开发手册 (作者:陈玓玏) python教程全解调试环境python3.6,调试python操作mongodb数据库,首先要在本地或服务器安装mongodb数据库。安装参考:在python2.7下,我们使用MySQLdb库点击下载在python3.6下我们使用pymysql库点击下载安装python库的方法,请查看Python库的安装与卸载安装成功后就可2018-02-24 11:13:565347
0
-
转载 RoaringBitmap 原理
前言位图索引被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。 Roaring Bitmaps 就是一种十分优秀的压缩位图索引,后文统称 RBM。压缩位图索引有很多种,比如基于 RLE(Run-LengthEncoding,运行长度编码)的WAH (Word Aligned Hybrid Compressi...2019-10-11 10:12:592091
0
-
转载 Druid 简介,架构,部署,python连接,hue链接druid
https://help.aliyun.com/document_detail/72987.html?spm=a2c4g.11186623.6.675.5ebb7ba7mPowo32019-08-14 21:50:231385
0
-
转载 索引利弊,如何创建索引,单键索引还是组合索引
** 索引的利弊与如何判定,是否需要索引**相信读者都知道索引能够极大地提高数据检索的效率,让Query 执行得更快,但是可能并不是每一位朋友都清楚索引在极大提高检索效率的同时,也给数据库带来了一些负面的影响。下面就分别对 MySQL 中索引的利与弊做一个简单的分析。索引的好处索引带来的益处可能很多读者会认为只是"能够提高数据检索的效率,降低数据库的IO成本"。确实,在数据库中表的某个字段...2019-08-14 11:20:08569
0
-
原创 clickhouse 部署+介绍
介绍Clickhouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(columnar DBMS)。传统数据库在数据大小比较小,索引大小适合内存,数据缓存命中率足够高的情形下能正常提供服务。但残酷的是,这种理想情形最终会随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查...2019-08-13 22:47:473564
0
-
转载 canal 增量订阅mysql消息
docker 部署docker run --name canal-server -e canal.instance.master.address=192.168.83.128:3306 -e canal.instance.dbUsername=root -e canal.instance.dbPassword=admin -p 11111:11111 -d canal/canal-...2019-08-21 17:01:52698
0
-
转载 HBase Region 自动拆分策略
原文地址:https://cloud.tencent.com/developer/article/1374592HBase-2.x支持7种Region自动拆分Region的策略,类图如下:其中BusyRegionSplitPolicy是HBase-2.x新增的策略,其他6种在HBase-1.2.x中也可以使用。设置自动拆分策略的关键配置如下:hbase.regionserver.regi...2019-07-24 15:22:261132
0
-
原创 neo4j的查询语法Cypher+python演示
MATCH查询节点根据label,属性的值查询单个(多个)节点。其中label,attr,value可以省略MATCH (node1_var :node1_label{attr1:value1,attr2:value2}),(node2_var :node2_label)RETURN node1_var.attr3,node2_var查询邻接点查询节点的相关节点(不区分方向),使用-...2019-06-26 17:40:262861
1
-
转载 Spark Standalone架构设计要点分析
参考:http://www.uml.org.cn/bigdata/2017011105.asp?artid=188942019-08-06 09:25:59157
0
-
原创 pyspark操作 rdd dataframe,pyspark.sql.functions详解 行列变换
官网文档可以参考:https://spark.apache.org/docs/latest/api/python/index.html我们采用本地实验的方式,来学习下语法face.csv文件内容如下image_id,device_id,date_str,age,gender,glass,hat,feat2019-03-09_8_0007f1a502433ee0d80c7f14c3bf7bc...2019-08-05 15:28:312183
0
-
原创 hue安装使用,集成数据库
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,...2019-06-27 13:39:25688
0
-
转载 集群间动态扩展和删除hdfs的datanode和hbase的regionserver
如果你既要增加节点,又要删除节点呢,我推荐的顺序是:新增datanode,新增regionserver,停掉regionserver ,停掉datanode。如果你单独的增加或者移出呢,顺序就是上面拆开的就行啦。如果你新增机器呢,新增datanode,新增regionserver。如果你减少机器呢,停掉regionserver ,停掉datanode。所以演示的话呢,就来个全套,就是新增...2018-12-21 12:38:271638
0
-
原创 Hbase数据结构+hbase shell基本语法
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami表的管理1)查看有哪些表2018-05-28 19:31:4510602
0
-
转载 scala语法入门
Scala 特性面向对象特性 Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。函数式编程 Scala也是一种函数式语言,其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持柯里...2018-05-25 10:50:434065
0
-
转载 海量数据处理的 Top K相关问题
Top-k的最小堆解决方法问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10)问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该问题。最小堆如图所示,对于每个非叶子节点的数值,一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的2018-04-17 16:10:565665
0
-
原创 Elasticsearch 监控和优化(持续)
参考:https://blog.csdn.net/dujunjiehaha/article/details/729568792019-10-28 16:41:07157
0
-
原创 zeppelin k8s安装部署和基本使用教程(在线的分析工具)
官网地址: http://zeppelin.apache.org/docs/0.8.1/简介:Zeppelin是一个Apache的孵化项目.一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)多用途笔记本可实现你所需要的:数据采集数据发现数据分析...2019-10-25 10:17:33479
1
-
原创 分布式SQL查询引擎---presto介绍,连接器
http://my.525.life/article?id=15107397419732019-11-06 19:54:57593
0
-
转载 Rabbitmq基本原理和架构
MQ全称为Message Queue, 是一种分布式应用程序的的通信方法,它是消费-生产者模型的一个典型的代表,producer往消息队列中不断写入消息,而另一端consumer则可以读取或者订阅队列中的消息。RabbitMQ是MQ产品的典型代表,是一款基于AMQP协议可复用的企业消息系统。业务上,可以实现服务提供者和消费者之间的数据解耦,提供高可用性的消息传输机制,在实际生产中应用相当广泛。本文...2018-08-26 17:57:287736
1
-
原创 docker 部署rabbitmq,k8s部署rabbitmq集群,跟踪和监控rabbitmq
docker部署rabbit在docker环境部署RabbitMQRabbitMQ是用 Erlang 编写的,直接部署的话需要先部署 Erlang 环境,比较麻烦。在 docker 环境下部署就比较简单了,直接使用rabbitmq官方提供的镜像即可。登录 docker 节点,运行docker pull rabbitmq:management这里使用的是带 web 管理插件的...2018-08-26 20:36:438368
0
-
原创 docker部署kafka,k8s(helm)部署kafka
我们在k8s上部署kafka,接收kafka生产者的数据,并将信息分发到消费者kafka的基础知识参考:https://blog.csdn.net/luanpeng825485697/article/details/81036028docker部署kafka同之前一样,我们现在docker部署一遍试试坑拉取镜像zookeeper和kafka的镜像docker pull wu...2018-08-24 10:04:246234
3
-
原创 win10 安装oracle11g R2的64位版本
下载win 64位操作系统 下载地址:http://download.oracle.com/otn/nt/oracle11g/112010/win64_11gR2_database_1of2.ziphttp://download.oracle.com/otn/nt/oracle11g/112010/win64_11gR2_database_2of2.zip安装解压解压缩...2018-06-15 16:41:496533
0
-
原创 postgres数据库入门, python 操作postgres
安装需要的包 pip install psycopg2主要的api接口1 psycopg2.connect(database="testdb", user="postgres", password="cohondob&a2019-02-11 10:24:401240
0
-
原创 k8s中实现自动数据库初始化(mysql,postgresql)
我们知道在代码里面创建数据库链接需要先有database, 但是我们刚刚部署的数据库可能还没有database或者没有指定权限的用户,这就要求我们在部署完数据库以后手动链接,创建数据库和用户. 有两种方式来实现自动化, 这里以mysql为例通过环境变量实现在k8s中部署mysql时,可以传环境变量指定,例如下面的yaml文件apiVersion: apps/v1kind: Deploy...2019-01-17 11:11:555853
0
-
原创 HADOOP基本操作命令,及其组件端口
hadoop的集群部署,可以参考https://blog.csdn.net/luanpeng825485697/article/details/81985602假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP进入HADOOP_HOME目录。执行 sh bin/start-all.sh关闭HADOOP进入HADOOP_...2018-11-07 19:47:201732
0
-
转载 Kafka压力测试(写入MQ消息压测和消费MQ消息压测)
1.测试目的       本次性能测试在正式环境下单台服务器上Kafka处理MQ消息能力进行压力测试。测试包括对Kafka写入MQ消息和消费MQ消息进行压力测试,根据10w、100w和1000w级别的消息处理结果,评估Kafka的处理性能是否满足项目需求。(该项目期望Kafka能够处理上亿级别的MQ消息)2.测试范围及方法2.1测试范围概述&nbsp...2018-11-06 11:09:592149
0
-
原创 sql常用功能实现
查询表的所有列名select column_name from information_schema.columns where table_name='prediction_stage2'2018-06-14 22:49:513907
0
-
转载 sql优化的几种方法
在sql查询中为了提高查询效率,我们常常会采取一些措施对查询语句进行sql优化,下面总结的一些方法,有需要的可以参考参考。1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from ...2018-05-28 15:49:055211
1
-
原创 windows下MongoDB数据库的安装
什么是NoSQL?NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。RDBMS vs NoSQLRDBMS - 高度组织化结构化数据 - 结构化查...2018-02-23 16:42:442580
0
-
原创 Windows下的MySQL安装、MySQL-Front安装
全栈工程师开发手册 (作者:陈玓玏)Mysql数据库系统软件的安装访问“http://dev.mysql.com/downloads/windows/installer/”或http://rj.baidu.com/soft/detail/12585.html?ald&qq-pf-to=pcqq.c2c下载文件;如果没有Oracle账号,需要先注册;下载安装包后,直...2017-09-03 11:39:184371
1
-
转载 python分布式多进程框架 Ray
并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序,而是相互通信和交互的服务的集合。ray的api接口教程:https://ray.readthedocs.io/en/latest/api.html为什么要使用 Ray?很多教程解释了如何使用 Python 的多进程模块...2019-03-13 19:49:279259
2
-
转载 Python下APScheduler的快速指南
APScheduler介绍APScheduler是基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。 APScheduler提供了多种不同的调度器,方便开发者根据自己的实际需要进行使用;同时也提供了不同的存储机制,可以方便与Redis,数据库等第三方的外部持久化机制进...2018-11-23 15:48:523879
0
-
原创 使用Python编写Prometheus监控metrics接口
使用Python和Flask编写Prometheus监控Installationpip install flaskpip install prometheus_clientMetricsPrometheus提供4种类型Metrics:Counter, Gauge, Summary和HistogramCounterCounter可以增长,并且在程序重启的时候...2018-09-17 09:19:1615777
4