醪糟小丸子-CSDN博客

原创一文读懂朴素贝叶斯分类算法

因为毕业论文是和贝叶斯理论相关的内容，今天恰巧看到一篇朴素贝叶斯分类算法的文章，写的非常通俗易懂，再结合另外一篇CNN的文章，能帮助自己的理解

2021-06-16 20:06:11 2298 13

数据集处理最近在做的实验需要将视频分类数据集抽帧变成图片分类的数据集，然后放入已有模型进行训练和评估。该篇参考博文详细介绍了搭建视频分类模型的过程，但主要以处理数据集为主。所以我的实验借鉴了这篇博文对数据集处理的方法，但对个别内容有修改，并补充了一些理解。便于处理，只取了UCF101的前10个类别，主要为了测试视频抽帧处理成图片分类数据集的效果，暂不考虑其他因素。要点一：给每一个视频加标签大佬博客是按照视频类名划分出标签的，但实际也可以按照视频后面给出的数字划分，这样，后面就不用单独将.

2020-10-09 17:54:37 1800 4

原创多张图片转成一个.npy文件存储

我最近做的实验需要把都是图片的数据集转成numpy形式存储，然后放入模型训练。首先要有一个.csv文件，这个文件存放了训练集中所有图片的名字和所属类别，共两列，这个文件在下载某些数据集的时候会自带或者有处理好的让你下载，但也可以自己生成，可以看这里import pandas as pdimport cv2import numpy as np#读取存有图片名和对应类别名的.csv文件train = pd.read_csv('train_new.csv')#print(train)#创.

2020-10-09 15:32:39 6669 13

原创数据集的文字标签（label）转成数字标签

但愿有人能明白我标题的意思，因为自己在找相关解决办法的时候这样搜没有找到，所以写这篇博客记录下。问题：我要放入模型中的训练集和标签是这样的：标签集中共有1926个标签，10个类别，（类别前边的数字，代表的是对应的第几张图片）。然后，直接把他放进模型中训练，但是把标签数组转换成张量的过程中出现了类型不匹配问题Ytr = np.load('train1/'+'Ytr01.npy',allow_pickle=True)y_data = torch.from_numpy(Ytr).

2020-10-09 14:22:02 10256 3

原创适合离散值分类的多分类模型——softmax回归

适合离散值分类的多分类模型——softmax回归一、什么是softmax回归？简单来说softmax回归是用来做多分类任务的模型，是一个单层神经网络。与线性回归模型针对连续值的预测（预测房屋价格、天气温度变化等）不同，它更适合离散值的训练和预测。由于该模型是为了识别多种类别，故最终的输出不再是单个值（像relu/sigmoid输入一个实数，输出一个实数）或者是二分类情景（只有两种标记0和1）的两个值，而是多个值（向量），但这些值并不是简单的 0~n-1的标记，而是经过运算后的类别概率。在猫狗分.

2020-08-05 19:49:49 4404

原创量化理解（Google量化白皮书《Quantizing deep convolutional networks for efficient inference: A whitepaper》）

一、什么是量化？为什么要量化？在深度神经网络模型应用中，量化是削减模型大小的一种常用方法。实际上就是把高位宽表示的权值和激活值用更低位宽来表示。为什么要削减模型，是因为硬件平台的自身性能不理想，如计算力低，内存、电量消耗等限制，导致模型推断速度慢、功耗高。而定点运算指令比浮点运算指令在单位时间内能处理更多数据，同时，量化后的模型可以减少存储空间。当然，也可以将量化后的模型部署在高效的定制化计算平台上以达到更快的推断速度。二、有哪些量化方法？怎样量化？具体的量化方案有以下几种：1.Uniform A

2020-07-23 19:30:09 13168 3

原创【看完这篇就够了！！！通俗易懂】置信度理解（95%的置信度、置信区间）

因为读论文时看到了这个概念，在很多实验中也算是一个评测指标了，但不是很理解。这是统计学中的概念，虽然我学过统计学，但是不记得这个概念了，重新来过吧，Ｏ(≧口≦)Ｏ百度百科的专业术语比较难理解，我整合了很多人的解释再加上自己的理解希望能用最通俗易懂的话语把这个概念描述清楚。虽然篇幅稍微有点长，但看完真的会彻底理解哦。首先，在统计学中，我们每个人都知道的是，可以通过抽样对整体水平进行评估，也可以说是用测量值估计总体的真实值。举一个例子，我一直很想知道我市市民平均每天玩手机的时间是多少，当然肯定不可能把全市

2020-07-08 17:59:25 74875 1

原创爬虫技术的伦理研讨

爬虫技术的伦理研讨本文根据几篇关于爬虫技术的报道针对以下三个问题进行说明1. 爬虫技术涉及到伦理问题有哪些？2. 作为一个IT技术人员，应怎么看待爬虫技术的使用？3. 提出自己对爬虫技术在伦理规则方面发展的几点看法。前两天还有人问我有没有做过python爬虫，说实话，虽然这个技术近几年很火热，但自身并没有过多的了解。该文只简单阐述爬虫技术的原理，让小白也能看懂爬虫技术到底是什么，以及该...

2020-04-09 21:35:18 4778 5

原创如何看待无人驾驶技术产生的伦理道德问题

如何看待无人驾驶技术产生的伦理道德问题【值得了解】本文根据TED科技视频：无人驾驶会挑战哪些道德伦理、《自然》发表的自动驾驶伦理调查以及德国公布的首份自动驾驶伦理道德标准，结合自身所学来探讨如何规范无人驾驶产生的伦理道德问题。从无人驾驶技术这一概念出现在公众视线中，到近几年人工智能的火热，随着技术的进步，无人驾驶普及给人类的感受是近在眼前。先不说把实验室里的无人驾驶系统设备搬到汽车上是不是...

2020-04-01 19:50:48 23776 4

原创人类基因编辑技术及背后的伦理问题【个人观点，仅供参考】

人类基因编辑技术及背后的伦理问题【个人观点，仅供参考】摘要本文根据遗传学专家詹妮弗·道娜（Jennifer Doudna）在TED国际会议上关于一个被称为CRISPR-Cas9的”基因编辑技术“所发表的演讲，针对以下三个问题进行说明：1. 基因编辑带来的优势和风险有哪些？2. 基因编辑技术存在哪些伦理问题？3. 从自己的观点聊聊如何解决这些伦理问题。一、CRISPR-Cas9 是什么...

2020-03-17 17:58:35 39154 1

原创如何看待“大数据杀熟”现象（个人观点，仅供参考）

现如今已是大数据的时代，给人们最直观的感受就是网上购物，因而大部分人对这个概念有所了解。当用户打开淘宝浏览一些想购买的东西时，等下一次再打开淘宝，首页面就都会是相关内容了。不仅如此，当打开其他手机软件，或网页浏览器，同样也会推送相关的广告信息。之前听别人说，他剃须刀坏了，给旁边的人说想买个新的，后来他上网准备购买，打开页面就是剃须刀的广告，他当时非常震惊，因为他近期从未搜索过，于是他告诉我们怀疑...

2020-03-10 19:33:36 11540

原创浅谈短视频背后的社会道德伦理问题（个人观点，仅供参考）

浅谈短视频背后的科技伦理问题（个人观点，仅供参考）本文根据最近发布的一则新闻：《真实的现场：快手移动连麦技术在抗疫报道中的创新应用》和之前的一篇报道：《算法不是三观不正的“遮羞布”：快手和今日头条因道德乱象被总局严惩》针对以下四个问题进行个人观点的发表。一、视频推送软件的技术发展脉络二、技术在发展过程中产生的科技伦理问题三、在快速的技术发展中，国家管控对科技伦理的规范作用四、如何在...

2020-03-04 19:31:04 17590 2

转载经常听到SaaS，那SaaS到底是什么呢？

如果把云计算简单想象成一台大电脑，那么IaaS是直接给你一台裸机，PaaS是安装好操作系统和基础运行环境再给你，而SaaS则很像网吧，你要玩的游戏已经装好在电脑里面，点击图标打开就可以玩了。

2024-05-16 10:06:10 18219

原创一行代码实现mysql建表语句格式化成hive建表语句

姐妹说用pandas库可能有bug 但她迟迟不帮我优化反正我们一致认同能实现功能的代码就是好代码哈哈哈哈哈坐等她再帮我换个库写反正这段时间不用手敲建表语句了开心开心。因为我们公司的数据平台在抽数据的时候无法自动生成ODS层hive格式的建表语句，而业务库的一些表字段又非常多，手动+excel修改耗时耗力，于是想通过一个Python脚本自动将。时隔一年没有跟新了确实平常很躺平工作中除了sql就是sql 很少学新的内容就没有产出了希望之后能多多更新文章吧这篇就是一个好的开端。

2024-04-26 18:45:41 747 1

原创 ES修改字段的数据类型

查看mapping或者在选择字段的时候可以看到字段keyword的数据类型是。无法使用sort进行排序，现需要改成。因此，做以下修改就可以查出来了。将旧索引的数据导入新索引。查询可以看到数据导入成功。

2023-09-18 19:13:04 2914

原创帆软数据填报——多字段联合校验数据是否重复

如果设定“管理项目编码”和“统计截止日期”字段作为“联合主键”，该维度下不能存在两条相同记录，在点击提交的时候出现数据校验提示框。同一张表中，在填报时，设定多个字段联合维度下，记录不允许出现2条及以上。（这个文档和这个功能实现没有关系，吐槽文档命名对新手不友好）同个项目同个时间维度不允许存在2条及以上的记录。4.校验公式+校验公式提示写入。

2023-06-29 19:44:47 3468 2

原创初学帆软踩得坑——数据填报_Excel数据导入

2.【表格重新导入一批，无法成功入库，导致只能导入一次】问题解决：点击增量导入-提交，数据成功入库。点击增量导入，会在第一行下面追加二次导入的数据，但提交之后仍显示第一批数据。单元格数据设置为默认分组，应当改成列表，所在行的每个单元格都要改成。2、表格重新导入一批，无法成功入库，导致只能导入一次，1、整块空白合并单元格，数据无法填入的现象。第一次做数据填报，按照教程做完在用。工具本地数据报表的时候出现。

2023-06-29 18:45:22 4280 1

原创 hive调优总结

这样如果任务花费时间很短，又要多次启动JVM 的情况下，JVM 的启动时间会变成一个比较大的消耗，这个时候，就可以通过重用JVM 来解决．（这个功能的一个缺点就是会一直占用task插槽不释放，以备重用，直到任务完成才释放。动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。1. distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同。是否开启动态分区功能，默认false关闭。

2023-01-04 17:39:23 589

原创一文搞懂什么是“退化维度”

当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度，需要把退化的相关数据迁移到事实表中，然后删除退化的维度。退化维度没有对应的维表，但可以获取与之相关的事实，如上订单号对应的订购者，服务对应的订购金额等。Kimball书中对退化维度的描述为：操作型事务控制号码，例如：订单号码，发票号码，提货单号码通常产生空的维度，经常保存为事实表中的退化维度。退化维度是没有对应维度表的维度键。关键字关系型数据库维度。

2023-01-04 16:24:35 6617 1

原创 Hive 删除一个字段

如何删除hive表中的一个字段？

2022-09-17 17:06:39 11919 1

原创原来rank() over()函数不止排序

我的逻辑就是先把所有tag='领域'和tag为人称和IP的记录分别挑出来，用uid去left join 就可以剔除拥有tag人称、IP、领域，tag='领域'的记录，只保留单纯拥有领域的记录，再和拥有人称领域的部分union。最近在做一个需求，其中有部分逻辑，秉着一切皆可left join 解决的方式写完了，直到我师兄说我这部分代码可以换个方式写的时候，我：哇，原来还可以这样处理。这个函数本身是用来分组排序的，在这里先给tag(文本)一个数字标识，再通过分组倒序排序就可以很容易的剔除不想要的记录了。...

2022-08-16 00:31:10 1817

原创【读书笔记】《大数据之路》——维度设计总结（3）

弊端：存储浪费，比如某个维度每天的变化量占总体数据量很小比重，但每天仍要存一份这个维度的数据（可以设置好生命周期，清理历史数据）通过将一部分不稳定的属性从主维度中移出，并将它们放置到拥有自己代理键的新表中。Kimball维度建模理论中，必须使用代理键作为每个维表的主键。......

2022-08-14 20:43:43 1011

原创【读书笔记】《大数据之路》——维度设计总结（2）

如何设计维度？出于扩展性、产出时间、易用性等方面考虑，设计主从维度。主维表存放稳定、产出时间早、热度高（使用频繁）的属性，从维表存放变化较快、产出时间晚、热度低的属性。......

2022-08-08 23:35:24 717

原创【读书笔记】《大数据之路》——维度设计总结（1）

规范化技术（雪花模型）：一个属性只存在于一张表，删除冗余数据，可以避免数据的不一致性。（对OLTP友好，对OLAP能节约存储，但需要大量关联操作，查询性能差）维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时，可以按照属性的层次结构向下钻取数据。反规范化技术：将维度属性层次合并到单个维度中，更适用于统计分析，降低了分析复杂度。描述为“维度”，维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列，称为。雪花模型：属性层次被实例化成一系列的维度，而不是单一的维度。......

2022-08-07 20:23:50 773 4

原创 DataGrip之一个赏心悦目的SQL格式化模板，快用起来吧

前段时间做需求，同事吐槽我的代码难以阅读，非让我用vs code，从最开始使用的notepad++到sublime，再到datagrip，发现最后一个功能更全一点，所以还是决定坚持用这个工具来格式化我的SQL。如果你懒得去自己一个个试，那么可以套用这个。一、DataGrip的SQL格式化设置菜单1.Preference（command+,）2.Editor->Code Style->General二、格式化模板1.Queries (查询)...

2022-03-27 00:14:38 12263 1

原创 hive函数-日期函数汇总

1.unix时间戳转日期函数语法：from_unixtime(bigint unixtime[, string format])说明：转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式,返回值类型string举例：select from_unixtime(1645452469984,'yyyyMMdd');select from_unixtime(1645452469,'yyyy-MM-dd');2.获取当前时间戳

2022-02-21 23:31:47 4832

原创 hsql统计两天数据差异的算法及lag()/led()分析函数的使用

写一个数据监控的算法，听起来很厉害的样子，但实际上就是计算数据变化的差异，如果这个差异超过某个设定的阈值，那么就可以通过给数据维护人员发送预警，及时做出相应的调整。最近在工作中，业务方提出了一个对数据监控预警的需求——如果每日的数据量差异超过某个设定的阈值，将会发送邮件通知我们，然后我们就要对数据进行分析，找出产生巨大差异的原因，进而做一定的调整。我要完成的内容是：即计算每个类别当天与前一天的差异问题其实...

2021-06-24 19:57:06 1536 9

原创 ShuffleError：error in shuffle in fetcher解决办法

今天在跑一个hive任务的时候，遇到了这个错误，很明显这个错误是在shuffle阶段出现了问题，报错为java.lang.OutOfMemoryError:java heap space从网上找到了解决办法，这里记录一下：异常原因：很可能是因为数据倾斜导致的栈溢出。在shuffle阶段，会将map的output数据给取下来，然后根据设定的参数决定是放进内存中，还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0

2021-05-19 11:47:59 1587

原创找实习的一些感悟（图像算法转大数据）——女孩也能干开发

亲爱的读者，首先说明一下，本人虽然有很多原创文章，但大部分是学习总结及bug解决方法，值得看的文章已经置顶，当然你们也可以自己挑一挑。对于一个计算机行业的初生牛犊，可能我的学习经历及其他经历的分享才是干货中的干货，该文章内容偏长，如果您能耐心看完，一定会有所收获。以下内容是我亲身经历所悟，不能确保都说的准确，但是希望能产生更多的共鸣，帮助一些迷迷糊糊的孩子。文章涉及到的点：对于计算机行业来说技术重要还是学历重要？大公司会卡第一学历是专科的吗？女孩子甚至是男孩子该选.

2021-04-18 17:50:43 2834 29

原创关于left join ... is null 的奇怪思路

虽然题目有点拗口难懂，不知我到底在解决什么问题。我通过例子的方法来说明，就会一目了然了。最近在做的一个需求，其中一部分要求是：查询出有过什么什么的客户且过滤掉什么的客户，其实就是各种表的联结再加上一些过滤条件。这都不重要，重要的是，这两个过滤条件我写的很有问题。如下：假如有一个表tb_ftc（不是真实业务场景的表）c_id ch_no c_st ... 01023 1 -1 02345 3 2 13132 2 ..

2021-04-13 12:03:34 2788 4

原创 ERROR 1215 (HY000): Cannot add foreign key constraint

导致这个错误的原因可能有： A表主建与B表外键数据类型，约束条件啥的不一样。两个数据表的存储引擎不一致。两个表的字符集不一致。 ... 我的错误：在建B表时无法添加外键。原因：我所使用的MySQL版本数据表的存储引擎是InnoDB,我在做练习的时候把主表的存储引擎改成了MyISAM。解决：改回来即可。建表成功。...

2021-04-07 11:55:31 2148

原创 rank()、dense_rank()、row_number()的区别

1.rank()如果使用该函数进行排名，相同结果的排序相同，且排序是非连续的。对（0.1，3.3，2.0，5.0，4.3，2.0，1.9）正序排序的结果是（0.1，1.9，2.0，2.0，3.3，4.3，5.0）——（1，2，3，3，5，6，7）2.dense_rank()如果使用该函数进行排名，相同结果的排序相同，且排序是连续的。对（0.1，3.3，2.0，5.0，4.3，2.0，1.9）正序排序的结果是（0.1，1.9，2.0，2.0，3.3，4.3，5.0）——（1，2，3，3，4

2021-03-10 15:49:52 443

原创 YARN——Hadoop的资源管理系统

一、YARN是如何产生的1.在Hadoop1.x中，mapreduce在集群中的架构是：1个Job Tracker(负责资源管理和作业调度)带多个Task Tracker（定期向Job Tracker汇报本节点的健康状况、资源使用情况、任务执行情况以及接收来自Job Tracker的命令并执行）。Hadoop1.x存在的问题：单点故障：由于Job Tracker只有一个，如果它挂了，集群就没法使用了。 Job Tracker会接收来自各个Task Tracker节点的RPC请求，随着节点规模增

2021-02-27 21:28:59 842 3

原创 Scala的传值调用与传名调用理解

通常函数/方法的参数是传值参数，也就是说，参数的值在传递给函数之前已经确定好了。而在Scala中，方法或函数的参数可以是一个表达式，也就是可以将一个代码逻辑传递给某个方法或着函数。（这有点像C语言）分别有两种调用方式：1.Scala的传值调用（call-by-value），参数是一个或多个类型的变量2.Scala的传名调用（call-by-name），参数传的是函数/方法名，即函数/方法（一段逻辑）二话不说，直接上一个代码（课程Demo）来说明：object CallByNam.

2021-01-16 13:53:24 956

原创 Scala基本语法

数据类型Scala的数据类型有 byte char short int long float double boolean 和unit其中unit类型是表示无值，和其他语言中的void相同。可以用作方法无返回值的结果类型，Unit只有一个实例值，写成()。Scala类的继承层级，Any类型等价于Java中的object类，基本类型都继承于Anyval，其他均属于AnyRef变量的定义定义变量使用var或者val关键字语法：var/val 变量名称=变量值（不指定数据类型...

2021-01-15 19:55:54 561

原创 Scala简介与Scala的下载安装

scala 介绍Scala是一种多范式的编程语言——面向对象编程、函数式编程。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。特点：1.Scala的API更优雅，用户体验好2.Scala的语言表达能力强，一行代码抵多行Java代码，速度快3.能融合到Hadoop生态圈开发环境Scala SDK 的安装安装Scala SDK 前首先确保已安装jdk1.8+的版本（jdk安装看这里）1.Windows下安装Scala SDK访问Scala官网

2021-01-14 21:22:28 2199 1

原创 HDFS的客户端操作及常用命令

HDFS的客户端形式1.网页形式——网页客户端可以查看HDFS文件系统上的文件2.命令行形式——hdfs客户端就是命令，可以进入Hadoop安装包的bin目录下，使用脚本Hadoop/hdfs来启动一个java客户端，进行hdfs的相关操作3.客户端在哪里运行没有约束，只要运行客户端的机器能够和hdfs集群联网——可以写一个Java程序作为客户端访问hdfs、可以在hdfs集群中任一台机器或非集群中的一台机器上启动一个客户端（只需更改core-site.xml文件，指定hdfs的namenode

2021-01-13 11:26:41 1059

原创 Hadoop简述及HDFS集群搭建详解

目录什么是Hadoop？Hadoop中有3个核心组件HDFS的整体的运行机制hdfs集群组成结构hdfs有着文件系统共同的特征：hdfs跟普通单机文件系统的区别：hdfs的工作机制：搭建hdfs分布式集群安装hdfs集群的具体步骤设置linux服务器的基础软件环境安装hdfs集群什么是Hadoop？海量数据处理的一个技术（软件工具）Hadoop中有3个核心组件1.分布式文件系统（HDFS）——实现将文件分布式存储在很多服务器上，功能是管理文件，实际

2021-01-11 21:40:57 2810

原创大数据概述

大数据基本概念用新的技术进行海量数据处理简言之，大数据：1.有海量的数据2.有对海量数据进行挖掘的需求3.有对海量数据进行挖掘的软件工具（Hadoop、spark、storm、flink、tez、impala....）处理海量数据的核心技术分布式——海量数据存储、海量数据运算存储框架1.HDFS——分布式文件存储系统（Hadoop中的存储框架）补充：数据库系统就是在文件系统上封装一层2.HBase——分布式数据库系统3.KAFKA——分布式消息缓存系统（.

2021-01-11 16:55:34 302

原创 yarn快速理解

目录yarn的基本概念yarn的大体机制yarn的安装yarn的基本概念yarn是一个分布式程序的运行调度平台yarn中有两大核心角色：1.Resource Manager接受用户提交的分布式计算程序，并为其划分资源，管理、监控各个Node Manager上的资源情况，以便于均衡负载2.Node Manager管理它所在机器的运算资源（cpu + 内存），负责接受Resource Manager分配的任务，创建容器、回收资源yarn的大

2020-12-27 16:26:06 281 1

3-1软件工程过程及模型.pptx

猫狗训练集（全）.rar

数据结构ppt和习题

空空如也