heiqizero-CSDN博客

原创 pyspark学习-spark.sql.functions normal函数

【代码】pyspark学习-spark.sql.functions normal函数。

2024-01-31 22:19:30 417

原创 pyspark学习-spark.sql.functions 聚合函数

"""作用:返回该组第一个数值,和groupBy合用，会显示分组之后，各个组的第一个场景:参数:col:列名ignorenulls：是否忽略控制返回:column:返回该组第一个数值""""""作用:返回该组第最后一个数值,和groupBy合用，会显示分组之后，各个组的最后一个场景:参数:col:列名ignorenulls：是否忽略控制返回:column:返回该组第最后一个数值"""print("按照age排序前")print("按照age倒排序后")#last。

2024-01-30 23:48:01 639

原创 pyspark学习-自定义udf

【代码】pyspark学习-自定义udf。

2024-01-30 17:00:16 201

原创 pyspark学习-RDD转换和动作

【代码】pyspark学习-RDD转换和动作。

2024-01-25 23:09:56 138

原创 pyspark学习_RDD转为DataFrame

【代码】pyspark学习_RDD转为DataFrame。

2024-01-25 23:07:45 253

原创 pyspark学习_wordcount

【代码】pyspark学习_wordcount。

2024-01-25 22:46:32 103

原创 pyspark之Structured Streaming kafka

【代码】pyspark之Structured Streaming kafka。

2024-01-25 21:59:25 128

原创 pyspark学习_dataframe常用操作_02

【代码】pyspark学习_dataframe常用操作_02。

2024-01-25 14:30:54 715

原创 pyspark学习_dataframe常用操作_01

【代码】pyspark学习_dataframe常用操作_01。

2024-01-24 22:42:53 702

原创 pyspark之Structured Streaming window函数-滑动模式

【代码】pyspark之Structured Streaming window函数-滑动模式。

2024-01-21 21:45:29 386

原创 pyspark之Structured Streaming window函数-滚动模式

【代码】pyspark之Structured Streaming window函数-滚动模式。

2024-01-20 23:16:01 405

原创 pyspark之Structured Streaming file文件案例1

测试3：数据按照省份统计后，输出到控制台，分析complete和update输出模式区别,针对该问题，调整输入，province="TaiWan"只会输入1次，即如果输出方式complete,则每batch都会输出，update的话，只会出现在一个batch。# 读取DATA文件夹下面文件，按照省份统计数据，主要考虑window情况，按照window情况测试，同时针对 outputMode和输出console和mysql进行考虑，其中保存到mysql时添加batch字段。# 清理数据，恢复测试环境。

2024-01-20 22:08:14 551 1

原创 pyspark之Structured Streaming文件file案例

【代码】pyspark之Structured Streaming文件file案例。

2024-01-20 22:05:42 430

原创 pyspark之Structured Streaming结果保存到Mysql数据库-socket例子统计(含批次)

【代码】pyspark之Structured Streaming结果保存到Mysql数据库-socket例子统计(含批次)

2024-01-19 20:59:23 406

原创 pyspark之Structured Streaming结果保存到Mysql数据库

【代码】pyspark之Structured Streaming结果保存到Mysql数据库。

2024-01-17 22:22:39 428

原创 pyspark连接mysql

将mysql连接jar包放到服务器spark安装位置的jars下，同时将jar包放到java安装包的jdk/jre/lib/ext下面即可。pycharm远程连接服务器上的spark，mysql时，报错：找不到com.mysql.jdbc.Driver。

2024-01-16 15:09:47 454

原创 python strings

【代码】python strings。

2023-06-09 14:21:02 79

原创 mysql8服务启动问题

mysql8通过msi安装后服务无法启动

2023-02-19 22:49:05 653

原创 KNN算法

算法KNN的Python实现

2023-02-15 22:29:23 233

原创 mysql8连接报错：public key retrieval is not allowed

mysql8：public key retrieval is not allowed

2022-06-02 08:46:17 199

原创修改linux时间配置

1.utpdate 时间ntpdate -u time.windows.com210.72.145.44 (国家授时中心服务器IP地址) ntp.sjtu.edu.cn 202.120.2.101 (上海交通大学网络中心NTP服务器地址） s1a.time.edu.cn 北京邮电大学 s1b.time.edu.cn 清华大学 s1c.time.edu.cn 北京大学 s1d.time.edu.cn 东南大学 s1e.time.edu.cn 清华大学 s2a.time.edu.cn

2022-02-25 11:50:04 686

原创 kettle连接Taos数据库

通过Restful形式连接Taos数据库，具体分为以下几个步骤：1. 导入lib放入kettle的lib文件夹下面2. 创建数据源3. 连接数据源即可连接数据库成功。存在问题：1.Restful默认返回10240条数据，修改taos数据库服务器端：/etc/taos/taos.cfg修改，重启taos数据库2. 不显示字段名称场景：1.实时数据情况每隔30s将数据最新状态同步到oracle/mysql关系型数据库，实现模拟实时数据展现。...

2021-11-12 17:46:08 1887 8

原创 ORACLE函数动态查询返回数据集

1. 创建type(显示哪些字段就写哪些字段)CREATE OR REPLACE TYPE JG_TEST_TYPE AS OBJECT ( ID VARCHAR2 (50), IP VARCHAR2 (50))2. 创建typeCREATE OR REPLACE TYPE JG_TEST_LIST AS TABLE OF JG_TEST_TYPE;3. 创建functionCREATE OR REPLACE FUNCTION JG_GET_TABLE_TEST(param varchar2)r

2021-05-08 17:30:42 655 1

原创 flume日志

故障转移(failover)a.sources = s1a.sinks = k1 k2a.channels = c1a.sinkgroups = g1a.sources.s1.type =execa.sources.s1.command = tail -F /tmp/test.loga.sinks.k1.type = avroa.sinks.k1.hostname = localhosta.sinks.k1.port = 44444a.sinks.k2.type = avroa..

2020-10-21 16:41:12 154

原创 flume日记

概念Agent：flume的实例，本质为JVM进程event：flume定义的数据流传输的最小单元sources：数据的来源和方式channels：数据缓冲池sinks：数据输出的方式和目的地flume常用sources\sinks\channelssources：netcat/avro/kafka/spooldir(针对文件目录上传)/TAILDIR(支持断点上传、多文件上传)sinks：logger/hdfs/hive/avro/hbase/kafkachannels:memory.

2020-10-21 10:57:49 101

原创 flume使用日记

flume安装下载，解压flume文件cd flume/confcp flume-conf.properties.template flume-conf.propertiescp flume-env.sh.template flume-env.shvi flume-env.shexport JAVA_HOME=/usr/javaflume简单编辑mkdir conf-selfvi flume-test.conf#agent:代理名 (任意起名)#配置sources源名称,配置.

2020-10-13 10:59:47 97

原创 openCV第三节

图像模糊图像模糊目的之一是为了图像预处理时降低图像噪声。图像的模糊通常利用卷积来实现。图像模糊以下几种常见的分别为：归一化均值滤波器（API:blur()），中值滤波器（meadian_blur():主要针对椒盐噪声）blur(InputArray src,//输入图像，对通道是单独处理的 OutputArray dst,//输出图像 Size ksize,//内核的大小 Point anchor = Point(-1, -1),//默认，表示锚点在核的中心 int borderTy.

2020-08-18 22:58:26 112

原创 openCV第二节

像素运算import numpy as npimport cv2#四则运算过程中：两个像素相加，如果大于255，则为255，小于0，则为0#加法def pixel_add(image,image1): image_add = cv2.add(image,image1) return image_add#减法def piexl_subtract(image,image1): return cv2.subtract(image,image1)#除法def pixel_divide(i.

2020-08-18 00:26:59 106

原创 openCV初入门第一节（python）

1.加载图片或者视频import cv2#path：文件路径:加载文件def show_image(path) image = cv2.imread(path) #创建窗口 cv2.namedWindow('image',cv2.WINDOW_AUTOSIZE) cv2.imshow(image) cv2.waitKey(40) cv2.destoryallwindow()#加载视频def show_vedio_demo(path): #path如果为0，显示调用自身摄像头 cap

2020-08-16 23:55:05 130

原创 pyTorch学习fizzbuzz训练

#定义fizzbuzz游戏def fizzbuzz_encode(i): if i%15==0:return 3 if i%5==0:return 2 if i%3==0:return 1 else:return 0def fizzbuzz_decode(i,prediction): return [str(i),'fizz','buzz','fizzbuzz'][prediction]def start(i): return fizzbuzz_decode(i,fizzbuzz_enco

2020-08-15 16:35:49 420

原创简单的文本新闻分类

简单的一个新闻分类，利用sklearn的TfidfVectorizer(tf-idf方法)，对文本进行分类，由于此处文本进行了数字编译，因此没有用jieba处理文本。附上简单代码train_data=pd.read_csv('train_set.csv',sep='\t')train_data.head().append(train_data.tail())test_data = pd.read_csv('test_a.csv',sep='\t')test_data.head().append(te

2020-07-29 22:41:00 220

原创机器学习-决策树属性分类方法公式

主要简单介绍了ID3、C4.5、CART决策树如何确定不同属性的顺序。ID3:信息熵增益C4.5:增益率CART:gini不纯度1. ID3信息熵计算：H = sum(-Pi*log2(Pi))例子：sexagelabel05011010510100首先看label的信息熵:label分为两类：概率都是1/2,则：-2/4log2(2/4)+(-2/4)log(2/4)=1age的信息熵：age主要有5,10两类，对于age=5

2020-07-29 22:27:54 538

原创 seaborn的boxplot箱线图与数学数据不一致问题

1. 数据x = [70,71,76,78,81,83,85,86,90,93,97]2.数据一共11个数字，中位数:83，1/4位数:76，3/4位数:903.sn.boxplot(x):画图结果如下：，明显3/4中位数不是90，如果集合n为奇数时：中位数：（n+1）/2 1/4位数在第一个数到第(n+1)/2个数中间，两边都是闭集:本题：中位数为：83，1/4位数在[70,71,76,78,81,83]中间，即:(76+78)/2=77,3/4位数在[83,85,86,90,93,97]...

2020-07-08 21:58:09 1408

韩顺平hibernate3 jar包

空空如也