SUISUIZHIBO-CSDN博客

原创 Javassist动态编程

Javassist（Java Programming Assistant）是一个用于在运行时修改字节码的开源库。它允许在不修改源代码的情况下，通过Java代码来编辑类的字节码，从而实现动态编程和代码增强。Javassist广泛应用于许多Java框架和库中。

2023-07-25 19:45:10 328

(8)SELECT (9) DISTINCT (11) <TOP_specification> <select_list>(1) FROM <left_table>(3) <join_type> JOIN <right_table>(2) ON <join_condition>(4) WHERE <where_condition>(5) GROUP BY <group_by_list>(6) WIT.

2020-07-07 16:50:44 448

转载 Python定时任务工具--APScheduler

转载：https://juejin.im/post/5d3718c35188251b2569f9e8

2020-07-03 11:49:26 1243 1

原创（Python）阅读项目学知识点——jsonschema

Jsonshcema——一个验证json数据格式的工具。官网link：https://python-jsonschema.readthedocs.io/en/latest/understanding json shcema ：https://json-schema.org/understanding-json-schema/about.html先看一个官网例子，感受一下。from jsonschema import validateschema = { "type": "ob.

2020-07-03 11:40:25 330

原创 GoLang 高并发 Goroutine（一）

GoLang 高并发 Goroutine（一）并发和并行Goroutinegoroutine 是如何工作的fork-join并发模型闭包例1例2并发和并行并发和并行：并发属于代码，并行属于一个运行的程序；具体是我们并没有编写并行的代码，而是期待在运行时能够并行的并发代码Goroutinegoroutine 是一个并发函数（并不是并行）func main(){ go sayHello...

2020-05-06 18:11:30 383

原创 python的import/from 的一些理解

我相信，当大多数人找寻这样的解释时，绝不是想简单的看到为什么使用import或者from。本文的内容，也是个人对import和from在底层到底做了什么的一些见解。import首先定义一个模块 spam.pya = 37def foo(): print(" I'm foo and a is %s " % a)class Spam(object): def tes...

2020-04-22 20:15:29 636

原创实现TCP文件下载

#服务器端代码import socketimport osdef send_file(client): data = client.recv(1024).decode('utf-8') response = '' try: if os.path.exists(data): file = open(data,'rb') ...

2020-04-22 16:01:19 760

原创 Pygame基础教程（四）—— 贪吃蛇小游戏第二版

写在前面的话：本系列教程仅有一些在本机调试通过的代码（如代码中发现bug，恳请包涵）。除代码中出现的一些主要注释外，不会出现太多其他文字解释，但是，文章中会给出主要模块的官方文档地址。再次：该系列文章的目的主要是抛砖，看‘玉’的同志们请移步官方文档。希望同志们，多多尝试，共同进步，谢谢！！！贪吃蛇改进import pygame,sysfrom pygame.locals i...

2019-10-30 21:01:26 660

原创 Pygame基础教程（三）-无聊小游戏贪吃蛇

贪吃蛇初级版代码import pygame,sysfrom pygame.locals import *import randomimport copyFPS = 10 #刷帧率fpsClock = pygame.time.Clock() #确保程序以一个最大的FPS运行SIZE = (400,400)class snake:#蛇体结构 def __init__(sel...

2019-10-25 15:39:06 615

原创 Pygame基础教程（二）

写在前面的话：本系列教程仅有一些在本机调试通过的代码（如代码中发现bug，恳请包涵）。除代码中出现的一些主要注释外，不会出现太多其他文字解释，但是，文章中会给出主要模块的官方文档地址。再次：该系列文章的目的主要是抛砖，看‘玉’的同志们请移步官方文档。希望同志们，多多尝试，共同进步，谢谢！！！Pygame完成绘画板小项目import mathimport pygame,sys...

2019-10-25 15:18:09 2093

原创 Pygame基础教程（一）

写在前面的话：本系列教程仅有一些在本机调试通过的代码（如代码中发现bug，恳请包涵）。除代码中出现的一些主要注释外，不会出现太多其他文字解释，但是，文章中会给出主要模块的官方文档地址。再次：该系列文章的目的主要是抛砖，看‘玉’的同志们请移步官方文档。希望同志们，多多尝试，共同进步，谢谢！！！pygame的官方文档https://www.pygame.org/docs/pygame的...

2019-10-25 14:40:16 17809 1

原创 Python实现KNN

import numpy as npimport mathimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitclass KNN: def __init__(self,k,dataSet):...

2019-04-09 17:22:58 257

原创 Kafka简介

Kafka流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道。构建转换或响应数据流的实时流应用程序。下面介绍几个概念：Kafka作为一个集群运行在一个或多个可以跨多个数据中心的服务器上。 Kafka集群以...

2018-11-29 16:55:07 292 1

原创 Spark自学之路（十四）——Spark流计算

流计算处理过程传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中，之后由用户通过查询操作和数据管理系统进行交互传统的数据处理流程隐含了两个前提：存储的数据是旧的。存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了需要用户主动发出查询来获取结果流计算的处理流程一般包含三个阶段：数据实时采集、数据实时计算、实时查询服务...

2018-11-27 19:59:33 2217

原创 Kafka安装与测试

下载去官网下载和scala版本一致的kafka，然后执行以下步骤：cd ~/下载tar -zxf kafka_2.11-2.1.0.tgz -C /usr/localsudo mv /usr/local/kafka_2.11-2.1.0.tgz /usr/local/kafkasudo chown -R hadoop /usr/local/kafka简单测试启动zooke...

2018-11-27 15:12:07 163

转载 Spark自学之路（十三）——Spark 机器学习库

Spark 机器学习库MLlibSpark提供了一个基于海量数据的机器学习库，它提供了常用机器学习算法的分布式实现开发者只需要有 Spark 基础并且了解机器学习算法的原理，以及方法相关参数的含义，就可以轻松的通过调用相应的 API 来实现基于海量数据的机器学习过程 Spark-Shell的即席查询也是一个关键。算法工程师可以边写代码边运行，边看结果 MLlib是Spark的机器学习（...

2018-11-26 19:08:00 9524 2

原创 Spark自学之路（十一）——RDD转换到DataFrames

RDD转换到DataFramesSparkSQL有两种方法将存在的RDDS转变到DataFrames。第一种方法：使用反射来推断包含特定类型对象的RDD的schema，这种基于反射的方法可以提供更简洁的代码，并且在您编写Spark应用程序时已经了解schema时可以很好地工作。第二种方法：使用编程接口，构造一个schema并将其应用在已知的RDD上。利用反射机制推断schemaSp...

2018-11-22 10:56:22 332

原创 RDD,DataFrames和Dataset大讨论

如何理解spark中RDD和DataFrame的结构？RDD DataFrame DataSet 区别和转换RDD,DataFrame与DataSet区别后续用到有自己的体会再更。。。。。。

2018-11-22 10:01:43 193

翻译 Spark自学之路（十）——SparkSession，创建DataFrames,无类型数据集操作（又名DataFrame操作），以编程方式运行SQL查询和全局临时视图，创建Datasets

SparkSessionSpark中所有功能的入口点是SparkSession类。要创建基本的SparkSession，只需使用SparkSession.builder：from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark SQL ba...

2018-11-21 19:38:43 951

翻译 Spark自学之路（九）——Spark SQL，DataFrames 和 Datasets

Spark SQL，DataFrames 和 DatasetsSpark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用此额外信息来执行额外的优化。有几种与Spark SQL交互的方法，包括SQL和Dataset API。在计算结果时...

2018-11-21 16:10:58 592

原创 Spark自学之路（八）——共享变量

共享变量通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是在集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值不会影响驱动器中的对应变量。Spark的两个共享变量，累加器与广播变量，分别为结果聚合与广播这两种常见的通信模式突破了这一限制。累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。...

2018-11-21 11:28:13 274

原创 Spark自学之路（七）——数据分区

数据分区对数据集在节点间的分区控制。在分布式程序中，网络的通信代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能，Spark可以控制RDD分区来减少网络通信开销。分区并不是对所有的应用都有好处，如果RDD只被扫描一次，没有分区的必要。只有数据集多次在注入连接这种基于键的操作中使用时，分区才会有帮助。 Spark中所有的键值对RDD都可以进行分...

2018-11-20 11:09:20 185

原创 Spark自学之路（六）——PairRDD（键值对RDD）

PairRDDpairRDD是很多程序的构成要素，因为他们提供了一些并行操作各个键或跨节点重新进行数据分组的操作接口。下面，先给出一个WordCount.pyfrom pyspark import SparkContextsc = SparkContext( 'local[*]', 'test')lines = sc.textFile("hdfs://Master:9000/RE...

2018-11-20 09:18:14 3975

原创 Spark自学之路（五）—— RDD常见的转化操作和行动操作

基本的RDD1：针对各个元素的转化操作最常用的map()和filter()：map()函数接收一个函数，把这个函数用于RDD的每个元素，将函数的返回结果作为结果RDD中对应元素的值。filter()接收一个函数，并将RDD中满足该函数的元素放入新的RDD中返回。计算RDD中各值的平方from pyspark import SparkContextsc = SparkContex...

2018-11-19 19:02:24 966

原创 Spark自学之路（四）——RDD编程

RDD编程Spark针对RDD的操作包括创建RDD，转换操作（返回RDD），行动操作（返回结果）RDD创建1：sc.parallelize(),需要把整个数据集加载到放在一台机器的内存中，多用于开发和原型测试2：sc.textFile(),更常用的是从外部数据集的读取从文件系统中加载数据创建RDDtextFile(),该方法把文件的URI作为参数，这个URI可以是本地文件系统...

2018-11-19 11:14:22 444

原创 Spark自学之路（三）——在集群上运行Spark

集群管理器Spark可以运行在各种集群管理器上，并通过集群管理器访问集群中的机器。1.standalone模式与MapReduce1.0框架类似，Spark框架本身也自带了完整的资源调度管理服务，可以独立部署到一个集群中，而不需要依赖其他系统来为其提供资源管理调度服务。在架构的设计上，Spark与MapReduce1.0完全一致，都是由一个Master和若干个Slave构成，并且以槽（s...

2018-11-19 10:35:45 308

原创 Spark自学之路（一）——Spark简介

SparkSpark简介最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据计算框架，可用于构建大型，低延迟的数据分析应用程序 2014年打破了hadoop保持的基准排序记录Spark具有以下特点：运行速度快：使用DAG执行引擎以支持循环数据流与内存计算容易使用：支持使用scala,java,python和R语言进行编程，可以通过spark shel...

2018-11-16 09:07:38 2387

原创 Spark自学之路（二）——Spark分布式环境搭建

Spark 下载Spark集群的搭建是建立在Hadoop分布式环境的基础上，如未搭建Hadoop环境，请参考第一篇和第二篇文章。链接：http://spark.apache.org/downloads.html按照如下配置下载（或者根据自己的情况）：Spark 安装 sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tg...

2018-11-05 10:02:09 394

原创 Hive JDBC连接

HiveServer2简介转载：https://www.cnblogs.com/xiaozhang123/p/7310980.htmlHive Server2配置和启动在Hiv-site.xml文件中配置属性（这里只介绍，最基本的几个，而且不一定要配置，可以使用默认的。如有需要详见：https://cwiki.apache.org/confluence/display/Hive/Set...

2018-10-09 11:27:23 1222

原创 Hive环境的搭建

Hive的基础知识Hive的基础知识，会在下一篇文章中，详细介绍。这篇文章主要说明Hive的搭建过程。特别说明本文用的Ubuntu16搭建，同样建议给读者，刚开始使用Ubuntu18期间遇到各种版本不兼容问题。Hive搭建步骤1.安装Mysql2.安装Mysql可视化软件3.安装hive4.配置文件1 安装Mysqlsudo apt-get install ...

2018-09-28 07:43:40 368

原创工欲善其事，必先利其器——Hadoop 集群安装配置

准备1.两台处于同一网段的机器，一台作为Master（192.168.31.178），一台作为Slave（192.168.31.92）。2.Master按照上一篇文章完成Hadoop环境的搭建，并完成配置（完成到伪分布式）。3.Slave使用上一篇文章，创建hadoop用户，安装ssh Server以及java环境。网络配置（现在Master上hadoop状态是关闭的）1....

2018-09-24 16:39:32 551 1

原创工欲善其事，必先利其器——Hadoop环境搭建（一）

环境操作系统：Ubuntu16.04（搭建在vritualBox虚拟机） Hadoop版本：2.9.1（http://mirror.bit.edu.cn/apacge/hadoop/common）,一般下载最新的稳定版本，即下载‘stable’下的2.x.y.tar.gz创建hadoop用户如果安装Ubuntu时不是用hadoop用户名，怎增加一个hadoop用户。su...

2018-07-28 11:46:54 254

Aaron