我是星星我会发光i-CSDN博客

设计思路的文档话，背景-》设计思路-》好处与不足 -》其他设计思路的对比（淘汰其他设计思路的原因）新功能的支持，对应的新功能的开关，出现问题是否可以及时的关闭功能开关保证基本功能的可用性。插件的水平扩展，有单个如何扩展为多个？产品排期是否与当前的安排冲突，是否有足够的资源（人和时间），是否有对应的。设计思路的评审，如何评审，如何量化（横向，纵向相同指标的对比）插件对于类型的支持存在问题，支持的数量，转换的逻辑，精度。是否已经有类似的解决方案，是否需要当前的设计。用户的环境多样，如何提供维护的便利性？

2023-10-24 20:06:43 380

原创 HIve常用语法记录

hive 增加表名和修改字段位置。

2023-08-18 15:28:24 172

原创 PySpark获取hive库中的表行数

通过pyspark获取hive每一张表名和表行数

2023-08-17 15:08:47 438

原创 rows between unbounded preceding and current row，滚动统计数据

rows between unbounded preceding and current row，滚动统计

2023-06-07 11:44:36 507

原创又是新一年的1024呦

学习、努力

2022-10-24 09:05:19 217

原创 Java代码创建hive外部表分区

Java代码创建hive外部表分区，简单便捷，主要是嗖嗖的

2022-06-02 12:04:03 710

原创 Mac提示“无法打开XXX因为来自身份不明的开发者” 或“已损坏，打不开“怎么办？

1.打开终端执行：sudo spctl --master-disable2.打开系统偏好设置-安全性与隐私，打开任何来源同时任何来源下会有你想要运行的软件，通过就好

2022-03-17 15:52:13 2971

原创虚拟机磁盘扩容

虚拟机扩容

2022-03-07 16:53:19 1106

原创 Python解析接口

# -*- coding:utf-8 -*-import requestsimport jsonfrom pymysql import *#差评接口url = "xxx"header={'content-type':'application/x-www-form-urlencoded'}#入参data={'appId':'xxx','pagenum':'1','pagetity':'10','regionCode':'xxx'}timeout=1000r = requests.po.

2021-03-25 15:47:11 592 1

原创 Spark Troubleshooting（故障检查）

Spark Troubleshooting以下8种1.控制reduce端缓冲大小以避免OOM2.JVM GC导致的shuffle文件拉取失败3.解决各种序列化导致的报错4.解决算子函数返回NULL导致的问题5.解决YARN-CLIENT模式导致的网卡流量激增问题6.解决YARN-CLUSTER模式的JVM栈内存溢出无法执行问题7.解决SparkSQL导致的JVM栈内存溢出8.持久化与checkpoint的使用

2020-10-27 12:13:51 282

原创 Spark-数据倾斜及解决方案

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据，第一个和第二个task分别被分配到了1万条数据，计算5分钟内完成，第三个task分配到了98万数据，此时第三个task可能需要10个小时完成，这使得整个Spark作业需要10个小时才能运行完成，这就是数据倾斜所带来的后果。

2020-10-27 11:33:54 867

原创 Spark-JVM调优

Spark之JVM调优

2020-10-27 10:17:18 221

原创 Spark-Suffle调优

Spark之Suffle调优

2020-10-27 09:53:15 705

原创 Spark算子调优

Spark之算子调优

2020-10-26 16:56:01 177

原创 Spark常规性能调优五：调节本地化等待时长

Spark常规性能调优五之调节本地化等待时长

2020-10-26 16:03:51 486

原创 Spark常规性能调优四：广播大变量-Kryo序列化

Spark常规性能调优四之广播大变量与Kryo序列化

2020-10-26 15:58:00 282

原创 Spark常规性能调优三：并行度调节

Spark常规性能调优三之并行度调节

2020-10-26 15:34:21 316

原创 Spark常规性能调优二：RDD优化

Spark常规性能调优二之RDD优化

2020-10-26 15:20:39 236 2

原创 Spark常规性能调优一：最优资源配置

Spark常规性能调优之最优资源配置：Spark性能调优第一步，就是为任务分配更多的资源，在一定的范围内，增加资源的分配与性能的提升是成正比的。

2020-10-26 14:37:38 454

原创机器学习-有监督学习-分类-KNN

import numpy as npimport pandas as pd# 直接引入sklearn里的数据集，鸢尾花irisfrom sklearn.datasets import load_iris# 切分数据集为训练集和测试集from sklearn.model_selection import train_test_split# 计算分类预测的准确率from sklearn.metrics import accuracy_score# TODO 0.数据加载和预处理iri...

2020-08-16 00:37:54 480

原创机器学习-有监督学习-线性回归-sklearn

import numpy as npimport matplotlib.pyplot as plt# 导入线性回归库from sklearn.linear_model import LinearRegression# 定义损失函数 ( y - w * x - b ) **2def cost(w , b , points): sum_cost = 0 M = len(points) for i in range(M): x = points[i,0] .

2020-08-14 22:20:25 592

原创机器学习-有监督学习-线性回归-梯度下降

import numpy as npimport matplotlib.pyplot as plt# 定义损失函数 E(w,b) = (y -w * i -b) ** 2def cost(w , b , points): sum_cost = 0 M = len(points) for i in range(M): x = points[i,0] y = points[i,1] sum_cost += ( y - w * x.

2020-08-14 22:16:17 234

原创机器学习-有监督学习-线性回归-最小二乘法

import numpy as npimport matplotlib.pyplot as plt# 定义损失函数def total_cost(w,b,points): M = len(points) cost = 0 for i in range(M): x = points[i,0] y = points[i,1] cost += ( y - w * x - b ) ** 2 return cost# 定义求平均数.

2020-08-13 23:40:22 608

原创 Python（九）函数

1.基本语法def 函数名(参数列表): 函数体2.函数分类2.1有参数（1）有几个参数，就得传入几个参数（2）在函数调用中输入参数时，参数名称必须对应def aa(x): print(x)aa(x=5)（3）当调用函数时，必须全部定义名称,且名称对应，顺序可以不同def aa(x,y): print(x)aa(y=2,x=5)（4）函数中可以定义默认值def aa(x=30,y): print(x)aa(y=2,x=5

2020-08-12 00:18:10 208

原创 Python（八）迭代器和生成器

迭代是Python最强大的功能之一，是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退

2020-08-12 00:02:39 190

原创 Python（七）元组和字典

1.创建元组>>> tup1 =(0,1,2)>>> tup = 1,2,3>>> type(tup)<class 'tuple'>>>> tup(1, 2, 3)>>> tup1(0, 1, 2)2.获取元组值>>> tup[0]1>>> tup[0:2](1, 2)3.内置方法方法描述 len(tuple)

2020-08-11 23:40:07 252

原创 Python（六）列表

1.创建列表>>> list = [0,1,2,3,4,5]>>> list[0, 1, 2, 3, 4, 5]>>> list1 = [x+1 for x in range(10) ]>>> list1[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]2.获取列表值>>> list[0]0>>> list[0:3][0, 1, 2]>>&gt

2020-08-11 23:15:02 314 1

原创 Python（五）字符串

1.创建字符串>>> s = '创建字符串'>>> v = "创建字符串">>> m = '''创建字符串'''>>> s'创建字符串'>>> v'创建字符串'>>> m'创建字符串'2.访问元素>>> a = s[0]>>> a'创'# s[n] 获取角标为n的元素，角标从0开始>>> l = len(

2020-08-11 22:40:53 365

原创 Python（四）运算符

1.算术运算符a = 10 b = 21运算符描述实例 + 加两个对象相加；a + b 输出结果 31 - 减得到负数或是一个数减去另一个数；a - b 输出结果 -11 * 乘两个数相乘或是返回一个被重复若干次的字符串；a * b 输出结果 210 / 除 x 除以 y；b / a 输出结果 2.1 % 取模返.

2020-08-11 21:59:37 594

原创 Python（三）基本数据类型-2

1.ListList（列表）是Python 中使用最频繁的数据类型。列表可以完成大多数集合类的数据结构实现。列表中元素的类型可以不相同，它支持数字，字符串甚至可以包含列表(所谓嵌套)。列表是写在方括号[]之间、用逗号分隔开的元素列表。和字符串一样，列表同样可以被索引和截取，列表被截取后返回一个包含所需元素的新列表。C:\Users\DELL>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 6

2020-08-11 19:59:50 444

kafka搭建与使用.doc

kafka集群搭建与使用，创建，删除，生产者，消费者，详细的描述了kafka怎么启动怎么使用怎么创建

2020-08-10

班级管理系统E-R图 Oracle数据库

班级管理系统是利用计算机来管理班级信息的计算机应用技术的创新。在计算机还未普及之前，班级管理都是靠手工实现，这样不仅浪费大量的时间、人力和物力，同时在信息的开放度和同学们的知情度方面不够透明。能够快速查询，从而减少管理方面的工作量，对于促进班级管理和提高学校教学质量具有重要意义。

2018-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人