Thomson617-CSDN博客

原创 Impala内置函数

[官网地址]字符函数(字符串操作) 返回值类型函数名称(参数) 函数说明 int ascii(string str) 返回str中首个ASCII字符串的整数值 string base64decode(string str) 将base64格式的字符串进行解码 string base

2024-08-18 22:53:24 2482

原创 Hive内置函数与常用函数汇总

目录数学函数集合函数类型转换函数[官网地址]Hive内置函数汇总数学函数返回值类型函数名称(参数) 函数说明 DOUBLE round(DOUBLE a) 返回对a四舍五入的BIGINT值 DOUBLE round(DOUBLE a, INT d) 返回DOUBLE型d的保留n位小数的DOUBL.

2020-11-15 00:50:06 5479 1

原创 Spark Machine Learning(SparkML):机器学习(部分一)

机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html]Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML还提供了用于构建工作流的ML管道、用于调优参数的交叉验证器以及用于保存和加载模型的模型持久性等工具。其目标是使实用的机器学

2020-09-04 12:19:18 12154

原创如何从视频（MV）中提取音频作为mp3？

【代码】如何从视频（MV）中提取音频作为mp3？

2023-06-11 21:33:07 1558

原创 Spark Machine Learning(SparkML):机器学习(部分三)

8.协同过滤(Collaborative Filtering)协同过滤是一种推荐算法，根据用户对物品的偏好构建稀缺矩阵，并计算其对其他物品的喜好程度，通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。spark.ml目前支持基于模型的协同过滤，其中用户和产品由可用于预测缺失条目的一小组潜在因素描述。spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因素。实现中spark.ml包含以下参数：(1).numBlocks是用户和项目将被分区为多个块的数量，以便并行化计算（默...

2020-09-09 14:26:06 3808

原创 Spark Machine Learning(SparkML):机器学习(部分二)

6.分类和回归分类与回归都是有监督学习，本质是一样的，都是特征（feature）到结果/标签（label）之间的映射，只不过分类的结果是离散值，回归是连续的。区分分类任务和回归任务有一个简单方法，就是问一个问题：输出是否具有某种连续性。如果在可能的结果之间具有连续性，那么它就是一个回归问题。6.1分类(Classification)分类问题的目标是预测类别标签（class label），这些标签来自预定义的可选列表。分类问题有时可分为二分类（binary classification，在两个

2020-09-08 11:17:13 3163

原创 Python图像处理工具类,总有一个适合你!

Python关于图像处理的模块包特别多,可参见此链接:[Python中的十大图像处理工具]。目前用的比较多的还是opencv-python、numpy和PIL。本文就这三个库封装了一些常用的工具类(以opencv-python为主),功能包括:1.在图像中添加中文2.图像拼接3.图像旋转4.图像裁剪5.图像批量命名6.在图像中绘制线条(绊线)7.视频转图像...

2020-03-16 17:19:08 992

原创 Python图像处理（三）--从图像拼接到视频拼接与整合处理

图像拼接python中关于图像拼接的方法比较多，个人推荐使用Numpy中的原生方法（concatenate、hstack、vstack），如下所示：# -*- coding:utf-8 -*-''' 图像（水平、垂直）拼接'''import cv2import numpy as np# 读取图像并重置图像大小，使两图像宽高保持一致img1 = cv2.resize(cv2...

2020-03-13 10:24:10 4923

原创 OpenCV-Python (官方)中文教程(部分一)

官网链接(英文版):https://docs.opencv.org/4.1.1/d6/d00/tutorial_py_root.html第一章.OpenCV简介了解如何在计算机上设置OpenCV-Python！1.OpenCV-Python教程简介1.1 OpenCV OpenCV是由Gary Bradsky于1999年在Intel公司创建的，第一次发布是在2000年。瓦...

2020-02-28 18:10:07 51099 18

原创关于yolov3.weights文件下载地址的分享

下载地址一:(需要翻墙)官方网站:https://drive.google.com/drive/folders/1uxgUBemJVw9wZsdpboYbzUN4bcRhsuAI特别说明:下载速度很慢,有时会出现下载中断,不推荐!下载地址二:https://pjreddie.com/media/files/yolov3.weights其它类似文件:https://pjreddie....

2020-02-27 10:09:39 51106 65

原创 Python图像拼接之自定义生成棋盘格

一个很有意思的代码,如下所示:# -*- coding:utf-8 -*-import cv2import numpy as npdef generatePattern(CheckerboardSize, Nx_cor, Ny_cor): ''' 自定义生成棋盘 :param CheckerboardSize: 棋盘格大小,此处100即可 :par...

2020-01-17 17:27:58 6556

原创 OpenCV-Python (官方)中文教程(部分四)

[部分三]:https://blog.csdn.net/Thomson617/article/details/103987952第八章.机器学习46.K 近邻（k-Nearest Neighbour ）46.1理解 K 近邻kNN 可以说是最简单的监督学习分类器了。想法也很简单,就是找出测试数据在特征空间中的最近邻居。我们将使用下面的图片介绍它。上图中的对象可以分成两组:...

2020-01-17 10:51:59 4584

原创 OpenCV-Python (官方)中文教程(部分三)

[部分二]:https://blog.csdn.net/Thomson617/article/details/103961274第七章.相机标定与3D重构42.摄像头标定在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到，这个求...

2020-01-15 17:02:52 17178 28

原创 OpenCV-Python (官方)中文教程(部分二)

[部分一]见:https://mp.csdn.net/postedit/103956799第五章.特征提取与描述29.理解图像特征大多数人都玩过拼图游戏。首先你们拿到一张图片的一堆碎片,要做的就是把这些碎片以正确的方式排列起来从而重建这幅图像。问题是怎样做到呢？如果把做游戏的原理写成计算机程序,那计算机就也会玩拼图游戏了。如果计算机可以玩拼图,我们就可以给计算机一大堆自然图片,然后就...

2020-01-15 11:11:11 5366

原创用OpenCV+Python对广角(包括鱼眼)镜头进行实时畸变校正

用普通摄像头的标定方式(cv2.calibrateCamera()或cv2.calibrateCameraExtended())去获取摄像头内参(包括畸变参数)已不适用于广角或鱼眼摄像头了。此文主要针对于大广角摄像头且边缘处畸变较大的摄像头进行标定与畸变校正。开发语言:PythonOpenCV中关于鱼眼镜头的Python版标定的API源码如下所示:def calibrate(objec...

2019-12-12 11:39:30 21371 30

原创使用cv2.fisheye.calibrate标定时出现的错误:(-215:Assertion failed)

错误如下:Traceback (most recent call last): File "E:/workspace-python/StereoSystem/calibrate/SingleCalibrate.py", line 134, in <module> mtx, dist = calibrate_single(1, 27, 9, 6, fileName) F...

2019-12-10 11:27:41 4979 7

原创基于OpenCV进行双目测距的流程图解

2019-11-07 10:44:50 855

原创在Python中导入openvino时报错:from .ie_api import * ImportError: DLL load failed: 找不到指定的模块

Windows环境中安装Openvino的步骤此处不做说明,可参见官网教程:https://docs.openvinotoolkit.org/2019_R2/_docs_install_guides_installing_openvino_windows.html#set-the-environment-variables当在python环境下导入openvino模块(openvino目录已复制...

2019-09-26 15:27:26 7476 15

原创使用OpenCV训练自己的级联分类器,生成可用的xml文件

级联分类器包括两部分：训练和检测。这个指南是描述如何训练分类器：准备训练数据和运行训练程序。[官网]:http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/user_guide/ug_traincascade.html重点注意事项OpenCV中有两个程序可以训练级联分类器： opencv_haartraining and opencv_trai...

2019-09-16 18:37:21 5315 7

原创 Python图像处理(二)--图像裁剪

方法一:使用PiL库from PIL import Imagedef test1(): img = Image.open('img/test.jpg') ww, hh = img.size x = ww * 0.3 y = hh * 0.1 w = ww * 0.4 h = hh * 0.5 # box = (ww * 0.3, hh ...

2019-09-12 10:54:56 1818

原创 Python图像处理(一)--图像旋转

在不改变图像尺寸的情况下对图像旋转,Python中通常使用PIL库中的transpose或OpenCV中的getRotationMatrix2D与warpAffine方法。实现代码如下所示:方法一:使用PIL库中的transpose实现(Image内置3种旋转角度:90、180、270)import osfrom PIL import Imageimg = Image.open('img...

2019-09-04 10:10:34 28840

原创关于TypeError: buffer is too small for requested array错误的成功处理

Windows环境中用 YAD2K 将 yolo 的 .weights 文件转换成 .h5 文件时执行如下命令:python ./yad2k.py ./yolov2-tiny-voc.cfg ./yolov2-tiny-voc.weights ./yolov2-tiny-voc.h5(yolov2-tiny-voc.cfg和yolov2-tiny-voc.weights文件已经复制到yad2...

2019-08-27 14:44:03 6574

原创 from torchvision import _C导入报错(ImportError: DLL load failed)的处理

Windows系统下Pytorch与python版本不匹配导致模块包导入错误.处理方案:步骤一:卸载已安装的Pytorchpip uninstall torch步骤二:去官网下载对应版本的.whl文件Pytorch官网地址:https://pytorch.org/我的python版本是3.7.3,故选的Python3.7选择对应的版本后去https://download.pyto...

2019-08-23 17:39:31 6575

原创 VGG Faca描述符

Omkar M. Parkhi， Andrea Vedaldi， Andrew Zisserman概观该页面包含用于计算VGG-Face CNN描述符的源代码的下载链接，如[1]中所述。VGG-Face CNN描述符是使用我们基于[1]中描述的VGG-Very-Deep-16 CNN架构的CNN实现来计算的，并且在人脸数据库 [2] 和YouTube Faces [3]数据集中进行了评估。...

2019-08-14 16:05:04 604

原创常用技术社区

CSDNhttps://www.csdn.net/博客园https://www.cnblogs.com/HBase技术社区http://hbase.group/阿里云-云栖社区https://yq.aliyun.com/articles/人人都是产品经理http://www.woshipm.com/过往记忆https://www.iteblog.com/W3schoolh...

2019-07-12 09:42:53 548

原创 Sqoop数据迁移指南

Sqoop是一个用来将Hadoop(hdfs/hive/hbase)和关系型数据库（如MySQL,Oracle,SQL SERVER,Postgres等）中的数据相互转移的工具，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop命令分四大类:(1).sqoop import 导入(2).sqoop import-all-ta...

2019-07-11 13:57:47 1756

原创 SQL/HQL中数据去重的3种方式

30万条数据的去重比较1.distinctselect distinct * from tableNamehive用时: 40.47秒impala用时: 11.98秒2.group byselect c1,c2,c3,c4,c5,max(c6) c6from tableNamegroup by c1,c2,c3,c4,c5hive用时: 22.8秒impala用时: 2....

2019-04-09 13:59:10 6568 2

原创 Shell脚本--删除文件中所有以指定字符开头的行

删除日志文件中以WARN开头的行:cat /root/filename | sed -e '/^WARN:/d' &gt; /root/filenamecat:查看文件/root/filename:文件名| :管道符sed:在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的...

2019-03-04 10:39:30 10269 7

原创 Hive SQL进阶练习(HQL)

一.数据准备(4表联查)1.创建车辆信息表:create external table car( car_id string comment '车辆ID', customer_id string comment '客户ID', car_brand string comment '车辆品牌', car_serial string comment '车辆系列', yearcheck_dt...

2019-02-27 18:43:21 3991 1

原创 Spark Shuffle操作

什么是Spark Shuffle?在Spark中，数据通常不会跨分区分布，以满足特定操作的需要。在计算期间，单个任务将对单个分区进行操作——因此，要组织单个reduceByKey 的计算任务要执行的所有数据，Spark需要执行一个all-to-all操作。它必须从所有分区中读取所有键的所有值，然后将所有分区的值放在一起计算每个键的最终结果——这称为shuffle。Spark中的某些操作会触发称...

2019-02-22 18:15:24 1883

原创 Spark SQL之性能优化

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验性选项来提高性能。在内存中缓存数据Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或dataFrame.cache()来使用内存中的柱状格式缓存表。然后Spark SQL将只扫描所需的列，并自动调优压缩，以最小化内存使用和GC压力。可以调用spark.catalog. unach...

2019-02-22 17:13:13 769

原创 Spark SQL之分布式SQL引擎

Spark SQL还可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。在这种模式下，终端用户或应用程序可以直接与Spark SQL交互来运行SQL查询，而不需要编写任何代码。Running the Thrift JDBC/ODBC server这里实现的Thrift JDBC/ODBC服务器对应于Hive 1.2.1中的HiveServer2。您可以使用Spark或Hive 1.2.1...

2019-02-22 17:12:58 985

原创 Spark SQL之引用(数据类型,NaN语义及算术运算)

Data Types(数据类型)Spark SQL和DataFrames支持以下数据类型:Numeric types(数字类型)ByteType: 表示1字节有符号整数。数字的范围是从-128到127。ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647...

2019-02-22 17:11:07 2531

原创 Spark SQL之数据源(Data Source)与保存模式(Save Modes)

本篇大纲:(一).Generic Load/Save Functions(二).Parquet Files(三).ORC Files(四).JSON Files(五).Hive Tables(六).JDBC To Other Databases(七).Avro Files(八).TroubleshootingSparkSQL支持通过DataFrame接口对各种数据源进行操作。D...

2019-02-22 15:33:06 3917

原创 MySQL、Oracle、Sql Server、Hive、Spark SQL、Flink SQL总结

本文主要讲解各类SQL语言的优缺点、数据类型及SQL语法的区别,其它区别可参加各官网MySQL官网地址:https://dev.mysql.com/doc/refman/8.0/en/programs.html优点：(1).体积小、速度快、总体拥有成本低，支持多种操作系统,使用简单,开放源码,稳定性高;(2).提供的接口支持多种语言连接操作。可以工作在不同的平台上。支持C、C＋＋、Jav...

2019-02-20 17:19:25 6599

原创 Spark Streaming算子篇详解

Spark Streaming是核心Spark API的扩展，它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获取，也可以使用map、reduce、join和window等高级函数表示的复杂算法进行处理。最后，可以将处理过的数据推送到文件系统、数据库和实时仪表板。事实上，您可以将Spark的机器学习和图形处理算法应用于数据...

2019-02-20 10:48:09 4506 2

原创 Spark算子篇详解

Transformations下表列出了Spark支持的一些常见转换。有关详细信息，请参考RDD API文档(Scala、Java、Python、R)和成对RDD函数文档(Scala、Java)。https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operationshttps://spark.apache....

2019-02-19 17:17:06 749

原创 Hive列操作汇总(添加/更新/删除/虚拟列)

官网语法如下所示https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AlteringandDroppingTables hive> ALTER TABLE events RENAME TO 3koobecaf; hive> ALTER TABLE pokes ADD CO...

2019-02-19 15:42:34 16450

原创 Hive建表语句详解--CREATE TABLE

Hive创建表的方式（默认路径/user/hive/warehouse，也可以location指定，主要针对external表）1、使用create命令创建一个新表,带分区可以使用describe formatted mytest_deptaddr 查看建表相关的各种配置属性以及默认属性。从下面可以看出，在创建表时有很多属性，比如存储地址，存储格式等属性我们都没有直接配置，而是选择了系统默认的。2、把一张表的某些字段抽取出来，创建成一张新表，使用as注意： 1.as只会复制属性以及属性值到新的表中。

2019-01-09 15:05:00 161261 2

TA关注的人

Flink SQL官方教程-sun.docx

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

hive-udf(两地址间距离计算+省市区位置解析(Java代码))

wideAngleCalibrate.py

Hive语法详解.docx (排版清晰,覆盖全面,含目录)

HBase学习笔记(个人整理)

Python官方教程+相关资料

从数据挖掘到数据展示

SparkML算法详解(关于DataFrame的API操作)--机器学习(Scala与Java版)

HiveQL源码

Hive语法详解

自定义hive jdbc服务器时无法执行set语句