- 博客(30)
- 资源 (2)
- 收藏
- 关注
转载 大数据Hadoop生态圈-组件介绍
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下来对Hadoop生态圈中出现的相关组件做一个简要介绍。 1、HDFS(分布式文件系统)...
2020-08-20 00:04:36 1536
原创 map个数reduce个数
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:hive.ex...
2019-05-23 19:33:08 432
原创 HIVE行转列和列转行
行转列select dt_month,valid_num,unvalid_num from test.test_xw_rowtocol数据如下转换要求:行转列需保留列名,如下图方式一:采用union all的形式select dt_month,'valid_num' as type ,sum(valid_num) as numfrom...
2019-05-15 16:14:21 3428
原创 数据仓库建设模型
本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验,在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的,满足大部分行业数据仓库建设标准的一种方法。所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这...
2019-05-13 11:27:18 560
原创 grouping sets
如果说聚合函数(Simple UDAF /Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多...
2019-05-06 14:37:10 2726
转载 列式存储和行式存储
终于明白了什么是列式存储,什么是行式存储。这跟数据在存储介质中的存储结构有关,列式存储是指,一列中的数据在存储介质中是连续存储的;行式存储是指一行中的数据在存储介质中是连续存储的。简单的说,你可以把列式数据库认为是每一列都是一个表,这个表只有一列,如果只在该列进行条件查询,速度就很快。那这两种不同的存储方式对数据的CRUD有什么不同的影响呢?看了一些文章,一般说的是下面两点...
2019-01-15 10:59:37 906
转载 MySQL索引背后的数据结构及算法原理
MySQL索引背后的数据结构及算法原理前两天经历了武汉一行腾讯面试,数据库索引是一个面试热点,在此搜集相关资料,以备学习之用。下面是一位牛人写得关于数据库索引的精品之作,因为很好,不敢修饰,转载至此与博友共享。原文链接:MySQL索引背后的数据结构及算法原理本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各...
2018-05-25 17:10:02 206
原创 mysql索引的优缺点
优点:第一、通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。第二、可以大大加快 数据的检索速度,这也是创建索引的最主要的原因。 第三、可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。 第四、在使用分组和排序子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。 第五、通过使用索引,可以在查询的过程中,使用优化隐藏器,提高系统的性能
2017-05-24 19:40:31 317
原创 python 字符串翻转| 单词翻转
s = 'hello world python'print s[::-1] # 逐字符翻转print s.split(' ')[::-1] #逐单词翻转#逐单词翻转s = s.split(' ')s.reverse()print s
2017-05-24 16:38:30 4838
转载 sqlalchemy
Python:数据库操作模块SQLAlchemySQLAlchemy的ORM是一个映射函数(Mapper),将Python中定义的类与数据库中的表建立关联,以及类的实例(instance)和表的行(row)建立关联。 查看一个类所对应的数据库表,使用__tablename__属性,例如 User.__tablename__1. 查询数据 (query)1.1 查
2016-07-15 16:59:02 397
原创 python实现邮件发送功能
# 带附件的邮件import smtplibfrom email.mime.multipart import MIMEMultipart # python2.4及之前版本该模块不是这样调用的,而是email.MIMEMultipart.MIMEMultipart(),下同from email.mime.text import MIMETextfrom email.utils import
2015-11-29 16:44:20 3388 1
原创 python 读写csv格式文件
#!usr/bin/env python#-*-coding:utf-8-*-''' python 读写csv格式文件'''import csvcsvfile = file(r'E:\phone.csv','wb')writer = csv.writer(csvfile)black_list = file(r'E:\antifraud_bl_pullbl
2015-08-07 19:12:59 573
原创 mysql导入.csv格式文件
mysql -uriskinfo -priskinfo -Driskinfo -e "load data local infile '/home/wuzhenguo/1.csv' into table text2 fields terminated by ',' lines terminated by '\n';"-u用户名-p密码-d数据库-e执行的意思
2015-07-26 11:38:38 419
转载 Python按照书写顺序输出字典中的元素
>>> from collections import OrderedDict>>> ident = OrderedDict( [('YANGWANZHA',80),('beijing',70),('shanghai',90),('nanjing',60), ('guangzhou',55),('hangzhou',88),('yangzhou'
2015-07-22 09:17:30 982
原创 python API开发
#!/usr/bin/env python#-*-coding:utf-8-*-from flask import Flaskimport jsonimport MySQLdbapp = Flask(__name__) @app.route('/prodcost/') def hello(prod_id): try: conn =
2015-07-21 17:31:15 750
原创 python 读写excel表格
在python安装目录下安装easy-install,然后安装xlrd和xlwd模块 from xlwt import Workbook, Formulaimport xlrdfrom pyExcelerator import * w = Workbook()ws = w.add_sheet('Sheet1') fname = r'E:\1.xlsx
2015-07-17 09:49:31 662
原创 Qt 之QSpinBox类
QSpinBox*m_spinbox = newQSpinBox(this); m_spinbox->setSingleStep(2); m_spinbox->setRange(0,100); //设置变换范围 m_spinbox->setSuffix("km"); //设置输出显示后缀。 m_spinbox->setPrefix("$"); /
2015-06-26 15:40:39 976
原创 Qt5.2.0之中文显示:
this->setWindowTitle(QObject::tr("choicequestion")); 运行后 窗口标题显示 选择题。1:打开Qt 5.2.0 for desktop (msvc 2010) 黑窗口如图12:输入: lupdate -verbose -no-obsolete E:\vs2010program\text\text.pro e:/test.ts
2015-06-25 17:07:12 1339
原创 vs2010运行动态链接库找不到的问题
把qt的安装目录D:\program\Qt\5.2.0\msvc2010\bin 加到系统环境变量下,重启电脑ok。
2015-06-24 17:18:31 1825
原创 cannot open include file'inttypes.h'
下载 inttypes.h' 拷贝到vs2010安装目录下 即 C:\Program Files (x86)\Microsoft Visual Studio 10.0\VC\include
2015-06-24 16:53:37 624
原创 计算该日在本年中是第几天?注意瑞年问题。(分别用结构体变量和函数实现)
1:用结构体实现#include struct year_month_day{ int year; int month; int day;}data;void main(){ int day_tab[13]={0,31,28,31,30,31,30,31,31,30,31,30,31}; int i,days=0; printf("input year,month,day
2014-11-30 15:45:09 929
原创 reverse(string str,int n) 交换指定字符串中的子字符串
#include #includeusing namespace std;string reverse(string str,int n){ int len=str.length(); if(n>len/2) { return str; } for(int i=0;i<n;i++) { char tmp; tmp=str[i]; str[i]=str[len-n
2014-11-18 12:06:33 497
原创 长度为n的数组有正有负,找出元素之和最大的子数组
//长度为n有正有负,元素之和最大的子数组#include void main(){ void MaxSum(int array[],int length); int a[10]={2,1,-9,-2,8,6,-3,3,2,-16}; MaxSum(a,10);}void MaxSum(int array[],int length){//i1记录最大子数组最后一个元素的位置,co
2014-11-18 10:01:23 1099
原创 输入int123,输出string一百二十三,假设最大是亿。
#include #include void main(){ char *a[7]={"0","0","十","百","千","万","亿"}; char *b[10]={"0","一","二","三","四","五","六","七","八","九"}; int i,n,num=0,temp; scanf("%d",&n); temp = n; while(temp!=0) {
2014-11-18 09:12:24 1078
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人