普通网友-CSDN博客

转载 kafka简介

对于kafka的架构原理我们先提出几个问题?　　1.Kafka的topic和分区内部是如何存储的，有什么特点？　　2.与传统的消息系统相比,Kafka的消费模型有什么优点?　　3.Kafka如何实现分布式的数据存储与数据读取?　　一、Kafka架构图1.kafka名词解释　　在一套kafka架构中有多个Producer，多个Broker,多个Consumer，...

2019-02-14 14:36:00 140

转载 Python学习笔记10--unittest参数化

我们在写case的时候，如果用例的操作是一样的，就是参数不同，比如说要测一个登陆的接口，要测正常登陆的、黑名单用户登陆的、账号密码错误的等等，在unittest里面就要写多个case来测试。这样的情况只是调用接口的时候参数不一样而已，再写多个case的话就有点多余了，那怎么办呢，就得把这些参数都写到一个list里面，然后循环去执行这个case。这样就可以省去写多个case了。当...

2018-04-28 17:13:00 148

转载 python学习笔记9--日志模块logging

我们在写程序的时候经常会打一些日志来帮助我们查找问题，这次学习一下logging模块，在python里面如何操作日志。介绍一下logging模块，logging模块就是python里面用来操作日志的模块，logging模块中主要有4个类，分别负责不同的工作：Logger 记录器，暴露了应用程序代码能直接使用的接口；简单点说就是一个创建一个办公室，让人在里头工作Handler 处...

2018-04-28 15:30:00 183

转载 Python学习笔记9-多线程和多进程

一、线程&进程对于操作系统来说，一个任务就是一个进程（Process），比如打开一个浏览器就是启动一个浏览器进程，打开一个记事本就启动了一个记事本进程，打开两个记事本就启动了两个记事本进程，打开一个Word就启动了一个Word进程。进程是很多资源的集合。有些进程还不止同时干一件事，比如Word，它可以同时进行打字、拼写检查、打印等事情。在一个进程内部，要同时干多件事...

2018-04-28 14:26:00 95

转载 python学习笔记9-单元测试unittest

Python中有一个自带的单元测试框架是unittest模块，用它来做单元测试，它里面封装好了一些校验返回的结果方法和一些用例执行前的初始化操作。在说unittest之前，先说几个概念：TestCase 也就是测试用例TestSuite多个测试用例集合在一起，就是TestSuiteTestLoader是用来加载TestCase到TestSuite中的TestRunn...

2018-04-28 11:38:00 172

转载 python学习笔记8--面向对象--属性和方法详解

属性：　　公有属性（属于类，每个类一份）　　普通属性（属于对象，每个对象一份）　　私有属性（属于对象，跟普通属性相似，只是不能通过对象直接访问）方法：（按作用）　　构造方法　　析构函数方法：（按类型）　　普通方法　　私有方法（方法前面加两个下划线）　　静态方法　　类方法　　属性方法静态方法@staticmethod...

2018-04-28 11:21:00 123

转载 python学习笔记8-邮件模块

我们在开发程序的时候，有时候需要开发一些自动化的任务，执行完之后，将结果自动的发送一份邮件，python发送邮件使用smtplib模块，是一个标准包，直接import导入使用即可，代码如下： import smtplib from email.mime.text import MIMEText email_host...

2018-04-28 10:17:00 135

转载 python学习笔记8-异常处理

一、异常处理在程序运行过程中，总会遇到各种各样的错误。程序一出错就停止运行了，那我们不能让程序停止运行吧，这时候就需要捕捉异常了，通过捕捉到的异常，我们再去做对应的处理。下面我们先写一个函数，实现除法运算。def calc(a,b): return a/b print(calc(5,1))#调用，没有错误，结果是5.0 >>&g...

2018-04-28 10:12:00 61

转载 python学习笔记8--面向对象编程

一、面向对象编程面向对象--Object Oriented Programming，简称oop，是一种程序设计思想。在说面向对象之前，先说一下什么是编程范式，编程范式你按照什么方式来去编程，去实现一个功能。举个例子，你要做饭，可以用电磁炉，也可以用煤气灶。不同的编程范式本质上代表对各种类型的任务采取的不同的解决问题的思路，两种最重要的编程范式分别是面向过程编程和面向对象编程。提到...

2018-04-27 14:41:00 84

转载 python番外篇--sql注入

一、sql注入概念介绍所谓SQL注入，就是通过把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意的）SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。二、Python中防止...

2018-04-27 14:10:00 142

转载 python学习笔记7-网络编程

import urllib.requestimport json,requests#urlib模块，不常用url = 'http://api.nnzhp.cn/api/user/stu_info?stu_name=小黑马'res=urllib.request.urlopen(url)jieguo=res.read().decode() #返回值都是Byte类...

2018-04-27 11:52:00 68

转载 python学习笔记7-excel操作

一、操作excelimport xlwtbook = xlwt.Workbook() #新建一个excelsheet = book.add_sheet('sheet1') #添加一个sheet页# sheet.write(0,0,'姓名')# sheet.write(0,1,'性别')# sheet.write(0,2,'年龄')# book.save...

2018-04-26 17:35:00 90

转载 python学习笔记6--双色球需求实现

# 5，随机产生5条双色球号码# blue 存蓝色的求 01,02# red 存红色的求 17,16,03# date存生成的时间，精确达到秒#处理import random,datetimeimport pymysqldef add_zero(num): if len(num)==1: num='0'+num...

2018-04-26 16:25:00 129

转载 python学习笔记6--操作redis

一、redis操作import redisr=redis.Redis(host='211.149.218.16',port=6379,password='123456',db=2)r.set('suki','suki123')#插入 string类型的值print(r.get('suki').decode())#redis读取出来的值都是Byte类型，用decod...

2018-04-26 14:54:00 123

转载 python学习笔记6--操作Mysql

一、mysql操作import pymysql#连上mysql ip 端口号密码账号数据库#建立游标#执行sql#获取结果#关闭连接、关闭游标conn=pymysql.connect(host='211.149.218.16',user='jxz',passwd='123456', port=3306,db=...

2018-04-26 14:03:00 38

转载 python学习笔记6--mockserver

一、mockserver的应用有时候测试我们需要调用一些三方接口或者未开发完成的接口，完成我们的业务流程测试，但是这时候可能我们只知道接口返回值，接口并没有完全开发完成或可以让我们任意调用，这时候就需要自己写mockserver二、python的写法（下方的op_mysql是另一篇文章‘Mysql操作‘’中封装的方法，用来执行sql语import flask,jsonfro...

2018-04-26 11:35:00 153

转载 python--装饰器/迭代器

pass转载于:https://www.cnblogs.com/SuKiWX/p/8950368.html

2018-04-26 11:17:00 50

转载 python学习笔记5--json处理

import json#json串就是字符串。d = { 'car':{'color':'red','price':100,'count':50}, 'bus':{'color':'red','price':100,'count':50}, 'phone':{'color':'red','price':100,'count':50},...

2018-04-25 19:39:00 92

转载 python学习笔记5--加密模块hashlib

import hashlib# md5ybm_pwd='yuanbapqingsdfs234FF234HF@F' #m = hashlib.md5() #bytes_ybq = ybm_pwd.encode()#把字符串转成bytes类型m.update(bytes_ybq) #加密，不能字符串，只能传bytes类型，二进制# print(m.hexdiges...

2018-04-25 17:46:00 114

转载 Python学习笔记5-时间模块time/datetime

import timetime.sleep(2) #等待几秒# 1、格式化好的时间 2018-1-14 16:42# 2、时间戳是从unix元年到现在所有的秒数# 3、时间元组#想时间戳和格式化好的时间互相转换的话，都要先转成时间元组，然后才能转print(int(time.time())) #当前时间戳cur_time = time.strftim...

2018-04-25 17:34:00 99

转载 python学习笔记5--random

一、random模块import random,stringprint(random.randint(1,199))#1-199随机取一个整数print(string.digits) #所有的数字0-9print(string.ascii_lowercase) #所有的小写字母print(string.ascii_uppercase) #所有的大写字母pr...

2018-04-25 17:27:00 81

转载 python学习笔记4--函数/全局变量/递归

一、函数是什么？函数一词来源于数学，但编程中的「函数」概念，与数学中的函数是有很大不同的，编程中的函数在英文中也有很多不同的叫法。在BASIC中叫做subroutine(子过程或子程序)，在Pascal中叫做procedure(过程)和function，在C中只有function，在Java里面叫做method。定义: 函数是指将一组语句的集合通过一个名字(函数名)封装起来，要想...

2018-04-25 17:09:00 81

转载深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢？可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码...

2018-04-17 17:38:00 78

转载 spark科普

普Spark，Spark是什么，如何使用Spark（1）转自：http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比Hadoop灵活4.Spark局限是什么5.什么情况下适合使用Spark科普Spark，S...

2018-04-17 17:22:00 73

转载 HIVE Group by、join、distinct等实现原理

Hive – Distinct 的实现：http://ju.outofmemory.cn/entry/784Hive – Group By 的实现：http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程：http://ju.outofmemory.cn/entry/786hive 结合执行计划分析 limit 执行原理：http:...

2018-04-17 16:51:00 390

转载深入浅出数据仓库中SQL性能优化之Hive篇

摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化，针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，S...

2018-04-17 16:00:00 102

转载 hive介绍

我最近研究了hive的相关技术，有点心得，这里和大家分享下。　　首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性：　　1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的Map...

2018-04-17 15:10:00 67

转载 Hive性能优化--map数和reduce数

转自http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查...

2018-04-17 15:04:00 175

转载 Storm实现实时大数据分析

当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm—— Twitter开发，通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单，因为用它处理...

2018-04-17 10:10:00 136

转载 hive架构原理简析-mapreduce部分

整个处理流程包括主要包括，语法解析（抽象语法树，AST,采用antlr），语义分析(sematic Analyzer生成查询块)，逻辑计划生成（OP tree），逻辑计划优化,物理计划生成（Task tree），以及物理计划执行组成。下面这张图（不知道是谁画的）简要的说明了整个处理的流程这里重点说一下物理计划生成，以及执行。物理计划的生成是根据逻辑操作树（opera...

2018-04-17 10:05:00 170

转载 hive入门学习线路指导

hive被大多数企业使用，学习它，利于自己掌握企业所使用的技术，这里从安装使用到概念、原理及如何使用遇到的问题，来讲解hive，希望对大家有所帮助。此篇内容较多：看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程1.hive首先我们需要hive是什么？让你真正明白什么是hive上面讲的很明白1.hive是一个数据仓库2.hive基于ha...

2018-04-17 09:43:00 94

转载 HBase基本概念

HBase是什么HBase构建在 HDFS 之上的分布式列式键值存储系统。HBase内部管理的文件全部存储在HDFS中。HBase VS HDFSHDFS适合批处理场景不支持数据随机查找不适合增量数据处理不支持数据更新HBase VS RDBMS范式化和反范式化事务(单行：多行ACID)索引(RowKey: 健全索引)RDBMS的优点...

2018-04-17 09:38:00 124

转载 Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

转自：http://blog.csdn.net/yczws1/article/details/19178265。纯干货：Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库...

2018-04-17 09:28:00 46

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同仁应该很熟悉如下的原 Map...

2018-04-17 09:13:00 123

转载苏宁OLAP架构设计

一. 功能综述OLAP引擎为存储和计算二合一的引擎，自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部，外部系统不允许直接操作底层数据，而是需要通过暴露出来的接口来读写引擎内部数据。目前整体来说OLAP功能由两部分组成：数据管理，查询引擎。1.1 数据管理引擎中数据核心概念包括：事实表，维度表，模型表，加速表，其中事实表和维度表统称为Dataset表。...

2018-04-16 15:04:00 329

转载浅谈数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：　　从图中可...

2018-04-12 10:26:00 151

转载 python中的GIL详解

GIL是什么首先需要明确的一点是GIL并不是Python的特性，它是在实现Python解析器(CPython)时所引入的一个概念。就好比C++是一套语言（语法）标准，但是可以用不同的编译器来编译成可执行代码。有名的编译器例如GCC，INTEL C++，Visual C++等。Python也一样，同样一段代码可以通过CPython，PyPy，Psyco等不同的Python执行环境来执行...

2018-04-12 09:08:00 81

转载 ML入门理论

http://www.mamicode.com/info-detail-1707941.html转载于:https://www.cnblogs.com/SuKiWX/p/8778704.html

2018-04-10 14:26:00 50

转载 presto架构和原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Prest...

2018-03-29 09:01:00 111

转载 SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

转自infoQ！根据 O’Reilly2016年数据科学薪资调查显示，SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作，甚至有一些只需要SQL。本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化...

2018-03-29 09:00:00 437

空空如也

空空如也