自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 【数据平台-dataworks】-问题总结

dataworks 平台填坑指南

2024-07-18 10:08:13 190

原创 世界时区清单

【代码】世界时区清单。

2024-06-26 15:12:28 110

原创 【Hive SQL】时间戳格式化、时间字符串转换格式化、时区切换(Mysql\Hive SQL\Athena)

本文主要记录 [Mysql\ Hive SQL\ Athena] 时间戳转换、日期格式化、时区转换各种数据数据操作

2024-06-26 15:01:42 668

原创 【Hive SQL】Hive Sql 列转行(lateral view 与 explode 、posexplode)详解

将hive某列一行中复杂的 array 或 map 结构拆分成多行(只能输入array或map)。通常,explode函数会与lateral view一起结合使用;

2024-06-21 16:47:31 518

原创 设备码解释

广告id是用户特殊的,独特的,可重置的广告id,由Google Play Service 提供,它为用户更好的控制,为开发人员提供简单、标准的系统继续使用你的应用程序,它用于广告目的的匿名标示符和或者重置其标示符或者退出以利益为基础的Google Play的应用程序。IOS:iOS 6 之后被禁止获取系统原生的UDID,但可以通过uuid,写入到钥匙串中,从而获得自定义的UDID(非系统原生),即使用户重装APP,只要每次都取这个钥匙串返回,就是不变的。Google推出的广告标识,与IDFA类似。

2023-10-30 10:23:50 843

原创 Anaconda历史版本以及镜像源整理

Anaconda镜像源整理

2023-03-13 22:44:03 3038

原创 python 如何将视频文件的语音转换为文字

最近在观看学习视频,做笔记时遇到一个痛点,需要反复一段一段的去看视频,再手敲整理笔记 😠。想着有没有可以免费的转换工具或者软件,就去网上搜了一下,发现大多数软件都会限定视频时长,超出收费。采用python中moviepy.editor包中的AudioFileClip类,将视频文件转换为音频文件。本意白嫖,收费就太见外了。几经周转,了解到讯飞语音有语音解析的功能,在。领取免费时长,期限一年(企业50小时、个人5小时)中找到了语音转文字的接口,关键免费。目前还有免费时长,可帮忙转换哦!

2022-11-12 22:59:39 2337 3

原创 hive 错误整理

🌴 格式错误FAILED: ParseException line 1:17 cannot recognize input near ‘ods’ ‘.’ ‘test_result’ in destination specification数据插入到数据表报错。 -- 错误实例 insert OVERWRITE ods.test_result PARTITION (dt) select * from ods.test_event where dt = '' -- 修正后 insert OV

2022-03-18 12:35:50 3403

原创 Maven使用问题总结

Maven使用问题总结maven 版本不兼容idea问题maven 版本不兼容idea问题报错信息idea2017 Maven3.9报Unable to import maven project: See logs for details;当前idea 版本 2017,maven版本3.9。maven安装正常,导入依赖报错。Unable to import maven project: See logs for details解决办法pom 导入下面依赖<!--解决maven

2022-02-07 17:32:15 497

原创 scala入门:基础函数总结

scala从入门到放弃

2021-12-08 23:02:46 461

原创 spark版本bug总结

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Traceback (most recent call last): File "/tmp/voldemort/0000

2021-11-23 20:13:55 2908

原创 Spark 源码解读04---(文件生成的)rdd的分区数据划分

2.4、从外部存储(文件)创建rdd的数据如何划分代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 读取本地文件val readline = sc.textFile("input/1.txt")readline.collect.foreach(println)源码解读/*假设字节数为 7 默认分

2021-09-01 17:39:34 144

原创 Spark 源码解读03---(文件生成的)rdd的分区个数

2.3、从外部存储(文件)创建rdd的个数代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 读取本地文件val readline = sc.textFile("input/1.txt")readline.collect.foreach(println)val par = readline.getNumPa

2021-09-01 17:38:33 219

原创 Spark 源码解读02---(集合生成的)rdd的分区数据划分

2.2、从集合中创建rdd的分区数据如何划分代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.makeRDD(List(1,2,3,4,5),3)rdd.glom().collect()// 分区 [1] [2,3] [4,5]源码解析def makeRDD[T: ClassT

2021-09-01 17:35:18 205

原创 Spark 源码解读01---(集合生成的)rdd的分区数

从源码角度分析集合(内存)创建rdd过程分区个数的生成。代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 创建时指定分区val rdd = sc.makeRDD(List(1,2,3,4,5),3)源码解析/*rdd 创建seq: Seq[T] 数据集合numSlices: Int = d.

2021-09-01 17:28:17 181

原创 pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题

文章目录pyspark 操作hive表1> `saveAsTable`写入2> `insertInto`写入2.1> 问题说明2.2> 解决办法3>`saveAsTextFile`写入直接操作文件pyspark 操作hive表pyspark 操作hive表,hive分区表动态写入;最近发现spark动态写入hive分区,和saveAsTable存表方式相比,文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。1> saveAsTab

2021-08-25 10:16:54 1019

原创 window10 下spark 2.2.3源码编辑

文章目录:rose: spark1、源码编辑1.1、环境准备1.2、官网下载Spark 源码1.3、使用maven指令编译1.4、代码测试???? spark1、源码编辑为了深入学习saprk,想看看源码,故自己down了源码,采用maven 编辑了一下。记录代码编译过程以及遇见的问题1.1、环境准备windows10IDEA2017Maven 3.6.3JDK 1.8 (自Spark 2.2.0起,对Java 7的支持已被删除!)scala 2.11.8 (注意和spark 版本

2021-08-19 10:59:08 152

原创 sklearn.neighbors实现KNN分类案例(海伦约会数据集)

文章目录sklearn.neighbors实现KNN分类案例1、导包2、准备数据3、查看数据3、KNeighborsClassifier使用sklearn.neighbors实现KNN分类案例案例说明海伦一直使用在线约会网站寻找适合自己的约会对象 特征值: 1. 每年飞行常客里程 2. 玩游戏视频所占时间比 3. 每周消费冰淇淋公升数 对应结果分类: didntLike:不喜欢的人 smallDose

2021-05-30 19:24:13 1428 1

原创 KNN算法说明以及sklearn 中 neighbors.KNeighborsClassifier参数说明

文章目录:rose:KNN:rose: sklearn 中 neighbors.KNeighborsClassifier参数说明????KNN概念k-近邻算法(k-Nearest Neighbour algorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别。可以简单理解为:由那些离X最近的k个点来投票

2021-05-30 18:31:11 22390 10

原创 win10 Anaconda 安装pyspark cmd-->pyspark:系统找不到指定的路径

win10 Anaconda 安装pyspark cmd–>pyspark:系统找不到指定的路径安装$conda install pyspark cmd检验报错C:\Users\Administrator>pyspark系统找不到指定的路径C:\Users\Administrator>如果只是通过conda 安装的pyspark 不生效 可以从以下几个角度查看问题JAVA_HOME 配置问题,可能java -version 可以出现版本,但是jre配置出错,

2021-04-26 22:10:35 1060

原创 mysqldump备份与恢复

1、Mysql数据库备份恢复1.1、备份备份指令如下:-- 备份指定数据库指定表(多个表以空格间隔)mysqldump [选项] 数据库名 [表名] > 脚本名mysqldump -uroot -p'密码' mysql db event > /backup/mysqldump/table.db-- 备份指定数据库排除某些表mysqldump -uroot -p'密码' test --ignore-table=test.t1 --ignore-table=test.t2 &gt

2021-04-22 14:34:47 292

原创 windows下pyspark连接mysql报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

windows下pyspark连接mysql报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver2021年4月12日23:09:37pyspark中sparksql连接mysql 报错: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver at jav

2021-04-13 08:49:04 505

原创 Win10 下部署pyspark

文章目录Win10 下部署pyspark 工作环境1、环境安装1.1 、windows 环境部署pyspark1.1.1 安装JDK1.1.2 下载 scala1.1.3 下载并安装hadoop + winutils.exe1.1.4 下载安装spark1.1.5 Anconda 中下载 pysparkWin10 下部署pyspark 工作环境1、环境安装1.1 、windows 环境部署pyspark1.1.1 安装JDKjdk版本需要选择1.8 及以上下载地址https://ww

2021-04-05 10:30:15 545

原创 CDH6.x 安装失败卸载,卸载中 无法删除“/var/run/cloudera-scm-agent/process“: 设备或资源忙 问题处理

文章目录一、停止CM二、停止Agent三、数据清理清理agent process 时报错问题| rm: 无法删除"/var/run/cloudera-scm-agent/process": 设备或资源忙 问题处理umount /var/run/cloudera-scm-agent/process一、停止CMIf you used the cloudera-manager-installer.bin file - Run the following command on the Cloudera

2021-03-25 09:40:48 2151

原创 python numpy中 shape(5,) 和shape(1,5) 的区别

python numpy中 shape(5,) 和shape(1,5) 的区别NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。ndarray 对象是用于存放同类型元素的多维数组。import numpy as npadd1 = [1,2,3,4,5]add2 = [[1,2,3,4,5]]# nd生成nd1 = np.array(add1)nd2 = np.array(add2)# 比较属性pri

2021-03-09 11:59:02 3892

原创 hive beeline 连接 执行 SQL查询报错

hive beeline 连接 执行 SQL查询报错beeline -u jdbc:hive2://ip:10000 -e "select * from dw.表 WHERE open_date = '20181204';"报错信息 ERROR : Job Submission failed with exception 'org.apache.hadoop.security.AccessControlException(Permission denied: user=anonymous, .

2021-02-28 21:04:59 842

原创 hive中的更新或者新建表impala 不能实时更新

hive中的更新或者新建表impala 不能实时更新不积跬步无以至千里Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。最近在生产中,我发现在hive 中更改表结构,或者建表 在impala中查询新建的表报错,或者更改的字段不能实时更新。问题原因这是因为元数据信息没有及时刷新。在impala 1.2中 加入的进程catalogd,主要就是将hive的metastore所存储的元数据缓存到

2021-02-28 20:51:45 1132

原创 TF-IDF算法加权

文章目录TF-IDF 算法介绍第一步:TF(term frequency)-词频第二步:IDF (inverse document frequency)-逆向文件频率第三步,计算TF-IDF参考TF-IDF 算法介绍TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-...

2019-08-01 09:24:28 1504

翻译 大数据DW架构记录

DW一直以来是企业信息与决策支持系统的核心组件,随着各类日志、社交、传感等非结构化数据的加入,企业内部数据按指数级增长,传统DW已经达到一个关键临界点——需要大量的资源投入到硬件、优化、支持和维护中,当前大部分使用Apache Hadoop来处理各种来源的大数据,但传统数据仓库不允许最终用户查询非结构化数据,此外,传统数据仓库并没有针对低延迟大容量数据负载和高吞吐量复杂分析工作负载进行优化——而这...

2019-07-30 09:52:45 436

原创 pycharm提示unexpected indent

--------那些年踩得坑缩进问题报错,如果是因为自身代码的缩进问题,查看一下是否对齐就可以解决。这里不做过多说明,以下我们来看一下非自己原因导致的TabError: inconsistent use of tabs and spaces in indentation关于拉取别人代码后 在pycharm修改代码时 pycharm 老是莫名提示 unexpected indent这是因为你...

2019-06-14 14:36:32 6752 3

原创 python的numpy中np.dot()详解

不积跬步无以至千里dot函数是np中的矩阵乘法,假设 a,b为矩阵,a.dot(b) 等价于 np.dot(a,b) 。a = np.array([2,3,4,5,6])b = a.Tprint(a)print(b)print(np.dot(a,b))print('**********')# 二维矩阵乘法a = np.array([[1,1],[1,0]])b = np.a...

2019-06-12 17:39:55 20697 4

转载 Hadoop组件介绍

Distributed File System1.数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。2.是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。3.通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,...

2019-06-05 20:04:02 152

原创 Scala 泛型类、泛型函数、上边界 和下边界

泛型类泛型类:在Scala的类中定义参数类型泛型类的应用场景:对类中的某些成员(field和method中的参数或变量)进行统一的类型限制,从而确保程序的健壮性和稳定性class MyCollection[T]{ private val list =new ListBuffer[T]() //增加一个元素 def add(el:T): Unit ={ list.appe...

2018-12-02 16:09:53 671

原创 Scala 中 map与 flatMap的区别

总结:两者都是对传入的元素进行处理 el =&gt; newEl例如 Array(“朋友1, 朋友2, 朋友3”,“朋友3, 朋友4, 朋友5”)处理- - -map的形式会将每一条输入映射为一个新对象 A=&gt;BList(List(朋友1, 朋友2, 朋友3), List(朋友3, 朋友4, 朋友5))flatMap的形式 会将每一个输入对象输入映射为一个新集合,然后把这些新...

2018-12-01 21:31:45 719

原创 Sqoop远程连接数据库

异常:java.sql.SQLException: null, message from server: “Host ‘***’ is not allowed to connect to this MySQL server”java.sql.SQLException: null, message from server: "Host '***' is not allowed to conne...

2018-11-25 12:28:46 1036 1

转载 SQL语句执行顺序

查询语句中select from where group by having order by的执行顺序1.查询中用到的关键词主要包含六个,并且他们的顺序依次为select–from–where–group by–having–order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行from...

2018-11-23 19:39:51 127

NC 6.5数据字典 下载

NC 6.5数据字典 下载

2021-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除