小五家的二哈-CSDN博客

原创 MySQL实现排名

dense_rank():不间断排名。

2024-06-16 11:22:59 392 2

原创 Python DataFrame/matplotlib中文名称设置

Python DataFrame

2022-07-16 15:06:04 773

原创 Python 文本特征提取

Python机器学习中对文本特征的提取

2022-06-03 18:07:20 3228

一、索引操作针对DataFrame的索引，有三种检索方式：直接使用索引值；loc：先行后列，索引值iloc：先行后列，索引值的下标首先创建一个DataFramedf = pd.DataFrame({ "class":[1,2,3], "name":['john','mary','sam'], 'age':[18,19,20]},index=['class1','class2','class3'])df['class']['class1']df.loc['cla

2022-05-21 11:50:14 955

原创 Hive建表时，使用Array和Map类型以及数据导入

在Hive建表时，我们是可以指定数据类型为Array和Map类型的。除此之外还有Struct类型，这里就不对此做过多延伸。参考：Hive增删改查建表：CREATE TABLE test001( id STRING COMMENT '', address ARRAY<string> COMMENT '', jobs map<string,string>);如果是从本地加载文件，我们可以把建表语句改成：CREATE TABLE test001( id STRIN

2022-04-19 21:26:25 6253 2

原创 Python 根据Excel文件建表

在数据开发中，我们有时会接触到表结构信心存储在Excel文件中，需要我们根据提供的字段建表，此代码就是用Python中的pandas模块，把Excel表转化为DataFrame类型，进而生成建表语句。这里提供一种写法仅供参考。import pandas as pd#1.读取文件路径path = 'd:/framework/file/tableschema.xlsx'#2.写入文件路径input = open('d:/framework/file/createtable.txt','w')#3.

2022-04-18 19:29:14 1545

原创 Mysql实现Row_number()效果和主键冲突时更新

目录实现排序Mysql主键冲突时更新实现排序建表： CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(20) DEFAULT NULL, `score` int(5) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8代码实现：selectid,nam

2022-04-02 13:03:45 1189

原创 java获取当年生肖--随便练练

前言我们知道，生肖总共有12个，包括鼠、牛、虎、兔、龙、蛇、马、羊、猴、鸡、狗、猪。每一年都有相对应的属相，这里我们以公元纪年为准来计算。主要的思路，就是根据某年，以2021年(牛年)为例，12为一个周期计算，即用2021%12，取余数，来获取相应的结果，具体实现方式见下方代码。实现public class Years { int year; public Years(int year) { this.year = year; } public vo

2021-12-02 21:23:02 717

原创 MySQL数据库的分区和分表的创建

一、建立分区表create table emp( id int , name varchar(20), time varchar(10))partition by range (id)(partition p1 values less than (2),partition p2 values less than (4),partition p3 values less than MAXVALUE);Insert into emp values(1,"john","202109"),

2021-09-17 20:51:14 1289

原创 java/Python3连接数据库(Hive、Oracle)

一、前提准备Python版本：3.6.4；需要下载的包：打开cmd在命令提示窗口中运行:pip install saslpip install thriftpip install thrift-saslpip install PyHive这里大家在安装sasl的时候，如果报错的话，可以进入官网下载，我在这里下载的是sasl‑0.2.1‑cp35‑cp35m‑win_amd64.whl,大家根据需要自行下载。下载完成后，即可打开Python界面：jupyter notebook二、代

2021-07-31 17:13:35 854

原创 SQL:实现行列转换

前言这里我们要讨论的是如何实现把多个字段及其对应的字段，同时转换成两个字段。即如下表所示：要做的是把它转换成下列形式：实现这里先直接上代码：#代码一：SELECT SPLIT(code_name,':')[0] AS code,SPLIT(code_name,':')[1] AS name FROM(SELECT EXPLODE(SPLIT(arr,',')) as code_name FROM(SELECT CONCAT_WS(',',CONCAT_WS(':',code1,na

2021-07-14 21:07:33 1365 1

原创 Spark SQL总结

import spark.implicits._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._

2021-03-10 08:46:22 246

原创实时流：Kafka中的数据从flink传输到redis

目录一、准备工作1.1 redis的安装1.2 安装总结二、依赖包三、代码实现3.1 redis命令一、准备工作1.1 redis的安装redis的配置大家可以参考这两篇文章：redis安装1redis安装21.2 安装总结1、在Linux上，可以直接使用wget http://download.redis.io/releases/redis-3.0.7.tar.gz命令进行安装。2、make报错时，说明是Linux上没有运行C的环境，redis是用C语言编写的。所以需要下载gcc:yu

2021-03-09 15:22:07 1191

原创 flume push sparkStreaming和sparkStreaming pull flume

flume push数据到SparkStreamingflume文件配置# 定义 source, channel, 和sink的名字a1.sources = s1a1.channels = c1a1.sinks = avroSink# 对source的一些设置a1.sources.s1.type = netcata1.sources.s1.bind = localhosta1.sources.s1.port = 5678a1.sources.s1.channels = c1# 对

2021-01-23 10:59:01 508

原创从Hive导入数据到HBase时错误：RetriesExhaustedWithDetailsException

第一个错误：Error during job, obtaining debugging information...原因是Javaf堆内存不足,可以修改为本地模式：set hive.exec.mode.local.auto=true;第二个错误：org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException Failed

2021-01-21 22:41:42 1962

原创数据从kafka倒Hbase

需要文件：user_friends.csv文件路径：/opt/flume/conf/jobkb09/dataSource/userFriend//opt/flume/conf/jobkb09/dataChannel/userFriend//opt/flume/conf/jobkb09/checkpointFile/userFriend/一、实现flume读取文件到kafka1、配置flumeuserFriend.sources=userFriendSource userFriend.cha

2021-01-16 16:58:02 327

翻译 sparkStreaming:实时流数据详解

概述spark Streaming是对核心Spark API的一个扩展，用来实现对实时流数据的处理，并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，例如：Kafka、Flume、Kinesis，或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法，如map、reduce、join以及window等。再处理完数据后，Spark Streming还可以将处理完的数据推送到文件系统、数据库或者实时仪表盘上，用来做具体的展示。Spark Stream

2020-12-25 01:01:40 2287 1

原创 sparkStreaming:实时流代码案例(实现Wordcount)

依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <!-- https://mvnrepository.com/artifact/org.ap

2020-12-22 21:02:36 917

原创 sparkStream

依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apach

2020-12-19 09:44:45 145 1

原创用Java读写Hbase，无法运行，显示连接的其他主机

在用java创建hbase表时，无法创建成功，查看日志文件，显示的是一直在尝试连接另外一台机器：(运行的主机是192.168.136.20)这是因为windows没有安装hbase，没有其运行所需要的环境，需要自己修改修改配置，在该目录下修改文件：C:\Windows\System32\drivers\etc\hosts0.0.0.0 flash.cn0.0.0.0 www.flash.cn0.0.0.0 geo2.adobe.com192.168.136.10 hadoop01我这里原

2020-12-18 10:34:16 183

转载 Spark Shuffle相关参数优化

原文连接Spark2.x优化：Shuffle相关参数优化一、前言大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。二、相关参数及优化建议1.spark.shuffle.file.buffer默认值：32KB参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲区中，待缓冲区写满之后，才会溢写到磁盘。

2020-12-11 15:08:42 779

原创 kafka安装(单机)及基本命令

目录安装调试基本语法安装调试1、安装包下载：https://pan.baidu.com/s/1il4pKzJHIOU3wG1BBotmlw 提取码：cd7b2、解压到虚拟机中指定位置tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/3、根据自己需要修改下文件名mv kafka_2.11-2.0.0/ kafka4、配置环境变量#进入profilevi /etc/profile#配置环境export KAFKA_HOME=/opt/kafkaexpo

2020-12-02 19:03:05 785

原创 flume

1、安装包链接：https://pan.baidu.com/s/1XBnqxB6Rdm4r6I2lIgGU0A 提取码：9xvp2、文件配置export JAVA_HOME=/opt/jdk1.8.0_221#java工作环境，给与的内存export JAVA_OPTS="-Xms2048m -Xmx2048m -Dcom.sun.management.jmxremote"3、下载安装包yum install -y nc yum list telnet*yum install -y

2020-11-30 23:14:58 215

原创 shell系统变量、四则运算与条件判断

目录系统变量四则运算条件判断系统变量$?上一条命令执行后的返回状态。如果正常执行返回为0，否则为1.$0当前执行的程序或脚本名称$#脚本后面跟的参数的个数$*输出脚本后面接的所有的参数，这些参数当成一个整体输出，每个变量参数之间以空格隔开；$@输出脚本后面接的所有参数，但这些参数都是独立存在的。$1~$9脚本后面的位置参数，如1表示第一个位置的参数‘1表示第一个位置的参数`1表示第一个位置的参数‘‘当前所在进程的进程号；‘`当前所在进程的进程号；`‘当前所在进程的进程号；‘!

2020-11-28 17:07:38 265

原创 shell中小数运算（bc）

需要先下载bcyum install -y bc然后就可以运算了echo 1+1.5|bc

2020-11-28 16:05:33 1475

原创大数据学习：Spark知识总结

Spark一、Spark基础及安装（单机）二、Spark核心组件、运行架构及RDD创建三、Spark的RDD算子操作四、Spark算子：Java版本（map、flatMap、distinct、subtract、combineByKey等）五、RDD算子：reduceByKey、foldByKey、SortByKey六、Spark算子：groupByKey、cogroup、subtractByKey、join七、Spark文件保存到本地或HDFS：saveAsTextFile和saveAsObj

2020-11-26 19:56:39 307 2

原创大数据学习：Scala知识点总结

Scala一、Scala基础语法：字符串插值、条件语句、循环控制二、Scala基础语法：函数的定义以及元祖三、Scala函数代码整理：匿名函数、柯理化、模式匹配等四、Scala部分函数和偏函数五、Scala常用Array函数(++ ~ drop)六、Scala数组函数二（dropRight~intersect）七、Scala数组函数三(isDefinetAt~segmentLength)八、Scala数组函数四（seq~zipWithIndex）九、Scala与MySQL的交互...

2020-11-26 18:42:11 311

转载 Spark GraphX 中的 pregel函数(转载)

文章目录 pregel函数源码与各个参数介绍：案例：求顶点5 到其他各顶点的最短距离pregel原理分析一篇关于 Spark GraphX 中 pregel函数的笔记，通过一个小案例将pregel函数理解透彻。 pregel函数源码与各个...

2020-11-26 14:56:14 439

原创 Graph图的算子(subgraph、joinVertices、outerJoinVertices),PageRank算法

结构算子//创建顶点RDDval users = sc.makeRDD(Array( (1L, ("Alice", 28)), (2L, ("Bob", 27)), (3L, ("Charli", 65)), (4L, ("David", 42)), (5L, ("Ed", 55)), (6L, ("Fran", 50)) )) //创建各顶点间关系的RDD val relation = sc.makeRDD

2020-11-25 19:47:21 837 1

原创 Spark：图（Graph）

目录图(Graph)的基本概念图的术语图的经典表示方法Spark GraphX创建Graph通过文件加载属性图应用图的算子图(Graph)的基本概念图是由定点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构。通常表示为二元组：Graph=(V,E).用于对事物之间的关系建模。图的术语顶点(Vertex)边(Edge)Graph=(V,E)集合V={v1,v2,v3...}集合E={(v1,v2),(v1,v3),(v2,v3)}Graph主要有顶点和边构成。顶

2020-11-23 16:47:43 2627 1

原创 spark Json日志分析

1.从hdfs上读取数据val jsonStrRdd=fileRdd.map(x=>x.split('|')).map(x=>(x(0),x(1)))2.数据分割，转换成dataFrame。Id字段加入到最后val jsonStrRdd=fileRdd.map(x=>x.split('|')).map(x=>(x(0),x(1)))val rdd=jsonStrRdd.map(x=>{varjsonStr=x._2;jsonStr=jsonStr.substring(

2020-11-23 08:21:50 191

转载 dataFrame存入到Hive

有多种方式把一个dataframe保存到hive表中： 1.直接把dataframe的内容写入到目标hive表 df.write().mode("overwrite").saveAsTable("tableName");或df.select(df.col("col1"),df...

2020-11-21 10:48:27 3003

原创 Spark SQL:MySQL经典50题（SQL版和Spark版）

表格的创建与数据的导入CREATE DATABASE `school` ;USE `school`;DROP TABLE IF EXISTS `Course`;CREATE TABLE `Course` ( `c_id` varchar(20) NOT NULL, `c_name` varchar(20) NOT NULL DEFAULT '', `t_id` varchar(20) NOT NULL, PRIMARY KEY (`c_id`)) ENGINE=InnoDB DE

2020-11-18 11:12:36 709

原创 Spark SQL 内置函数和自定义函数UDF

Spark SQL内置函数可以在org.apache.spark.sql.funtions.scala中查看具体的函数。例如：val accessLog = Array(“2016-12-27,001”,“2016-12-27,001”,“2016-12-27,002”,“2016-12-28,003”,“2016-12-28,004”,“2016-12-28,002”,“2016-12-28,002”,“2016-12-28,001”)定义表结构；RDD转换为Row；

2020-11-16 18:26:40 522

原创 Spark SQL操作外部数据源（Parquet、Hive、MySQL）

前言：在进行操作前需要把jdbc的jar包放到spark的jars文件夹下我用的版本是:mysql-connector-java-5.1.38.jar。Parquet文件Parquet文件是一种流行的列式存储格式，以二进制存储，文件中包含数据与元数据。代码示例：import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types._ val spark = SparkSession.builder().

2020-11-16 16:20:37 730

原创 SparkSQL Dataset的创建

Spark SQL架构Spark SQL是Spark的核心组件之一（2014.4 Spark1.0）能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式：SQL、API编程支持多种外部数据源：Parquet、JSON、RDBMS等Catalyst优化器是Spark SQL的核心Dataset的创建创建方式一：val dt=spark.createDataset(1 to 5)dt.show

2020-11-12 17:29:06 706

空空如也

空空如也