冰之焱-CSDN博客

原创【机器学习】降维——PCA

PCA（Principal Component Analysis）是一种常见的数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最近重构性两方面进行，前者的优化条件为划分后方差最大，后者的优化条件为点到划分平面距离最小，这里我将从最大可分性的角度进行证明。

2022-11-24 13:50:14 534 1

在给定文档集合C和词典D的条件下，将某篇文档通过词袋模型表示成一个个的词，而后根据 TF-IDF 为每个词计算出一个实数值；由于词典D的大小为M，因此将这篇文档转化成一个M维向量，如果词典中某个词未出现在文档中，则这个词的在向量中对应的元素为0，若某个词出现在文档中，则这个词在向量中对应的元素值为这个词的tf-idf值。这样，就把文档表示成向量了，而这就是向量空间模型(vector space model)。

2022-11-13 10:00:00 855

原创推荐系统协同过滤模块

协同过滤（简称：CF）推荐算法是最经典、最常用的推荐算法，该算法通过分析用户的兴趣，在用户群找到指定用户的相似用户，综合这些用户的对某一信息评价，形成系统对该指定用户针对此信息的喜好程度的预测。比如，你想看电影，但不知道选那一步？你就会得到周围相似爱好朋友、人群的推荐。协同过滤就是指用户可以齐心协力，通过不断地和网站（门户）互动，使自己的推荐列表能够不断过滤掉自己不感兴趣的物品，从而越来越满足自己的需求。

2022-11-09 20:47:37 557

原创推荐系统介绍

基于用户的协同过滤推荐机制和基于用户统计信息推荐机制都是计算用户的相似度，并基于“邻居”用户群计算推荐，但它们所不同的是如何计算用户的相似度，基于用户统计信息只考虑用户本身的特征，而基于用户的协同过滤机制是在用户的历史偏好的数据上计算用户的相似度，它的基本假设是，喜欢类似物品的用户可能有相同或者相似的兴趣爱好。基于内容的推荐是建立在产品的信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。推荐系统属于资讯过滤的一种应用。

2022-11-09 20:38:04 1031

原创核函数的定义及作用

如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数 K(x, x′) ，它恰好等于在高维空间中这个内积，即K( x, x′) =。（4）核函数方法可以和不同的算法相结合，形成多种不同的基于核函数技术的方法，且这两部分的设计可以单独进行，并可以为不同的应用选择不同的核函数和算法。（3）核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射，进而对特征空间的性质产生影响，最终改变各种核函数方法的性能。核，B样条核函数和张量积核函数等。

2022-10-23 13:01:14 1147

原创机器学习术语

一种优化训练时间的，使用 Softmax 等算法计算所有正标签的概率，同时只计算一些随机取样的负标签的概率。例如，有一个样本标记为「小猎兔狗」和「狗」，候选取样将计算预测概率，和与「小猎兔狗」和「狗」类别输出（以及剩余的类别的随机子集，比如「猫」、「棒棒糖」、「栅栏」）相关的损失项。假如给定的温度的敏感度为十分之一度，那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中，15.1 度到 30.0 度放入第二个 bin，30.1 度到 45.0 度放入第三个 bin。

2022-09-26 00:00:00 929

原创机器学习术语库

线段长度：代表向量的大小。数据集，从字面意思很容易理解，它表示一个承载数据的集合，如果说“模型”是“魔法盒”的话，那么数据集就是负责给它充能的“能量电池”，简单地说，如果缺少了数据集，那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”，它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。整个机器学习的过程都将围绕模型展开，训练出一个最优质的“魔法盒”，它可以尽量精准的实现你许的“愿望”，这就是机器学习的目标。特征值也可以理解为数据的相关性，每一列的数据都与这一列的特征值相关。

2022-09-25 13:09:37 263

原创逻辑回归(Logistic Regression)分类方法

Logistic模型是特殊情况下的一般线性模型(General linear model)，可用来预测二值因变量的概率。其预测函数中使用到了Logistic Function (见公式。当L=1,k=1,μ=0L=1,k=1,μ=0时，logistic regression的预测函数为。Logistic回归也称Logit回归或Logit模型，是一个因变量是分类值的回归模型。(1))，所以称其为Logistic Regression。当响应值y∈{0,1}y∈{0,1}时。将两种情况综合起来，

2022-09-24 12:44:55 809

原创方法重载overload

重写的方法能够抛出任何非强制异常，无论被重写的方法是否抛出异常。但是，重写的方法不能抛出新的强制性异常，或者比被重写方法声明的更广泛的强制性异常，反之则可以。例如：如果父类的一个方法被声明为 public，那么在子类中重写该方法就不能声明为 protected。返回类型与被重写方法的返回类型可以不相同，但是必须是父类返回值的派生类（java5 及更早版本返回类型要一样，java7 及更高版本可以不同）子类和父类在同一个包中，那么子类可以重写父类所有方法，除了声明为 private 和 final 的方法。

2022-09-21 15:08:08 189

原创 PCIe（peripheral component interconnect express）

1. PCIe基础知识PCI-Express（peripheral component interconnect express）是一种高速串行计算机扩展总线标准，它原来的名称为“3GIO”，是由英特尔在2001年提出的，旨在替代旧的PCI，PCI-X和AGP总线标准。与大多数总线一样，PCIe总线也包括电气属性和协议组成两部分。完整地了解PCIe是相对复杂的，所以从应用角度来讲，我先从基本的协议入手，对PCIe有个初步的认识。拓展学习可以参考官方协议规范文档《PCI Express Base Spec

2022-06-29 20:15:00 733

原创计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。计算机视觉

2022-06-28 20:50:01 527

转载硬盘的种类及运行原理

硬盘的种类可分为：1、固态硬盘（SSD），采用闪存颗粒来储存；2、机械硬盘（HDD），采用磁性碟片来储存；3、混合硬盘（HHD），是把磁性硬盘和闪存集成到一起的一种硬盘。硬盘有机械硬盘(HDD)和固态硬盘(SSD)之分。机械硬盘即是传统普通硬盘，主要由：盘片，磁头，盘片转轴及控制电机，磁头控制器，数据转换器，接口，缓存等几个部分组成。图中左边为固态硬盘，右边为机械硬盘机械硬盘：磁头可沿盘片的半径方向运动，加上盘片每分钟几千转的高速旋转，磁头就可以定位在盘片的指定位置上进行数据的读写操作。信息通过离

2022-06-27 17:20:31 1241

原创硬盘的分类

机械硬盘（HDD）、固态硬盘（SSD）以及混合硬盘（SSHD）1、机械硬盘（HDD）机械硬盘(HDD)是传统硬盘，为电脑主要的存储媒介之一。由一个或者多个铝制或者玻璃制成的磁性碟片，磁头，转轴，控制电机，磁头控制器，数据转换器，接口和缓存等几个部分组成。工作时，磁头悬浮在高速旋转的碟片上进行读写数据。机械硬盘是集精密机械、微电子电路、电磁转换为一体的电脑存储设备。2、固态硬盘（SSD）固态硬盘（SSD）是由多个闪存芯片加主控以及缓存组成的阵列式存储，属于以固态电子存储芯片阵列制成的硬盘。相对机械硬盘，读取

2022-06-27 17:17:19 7721

原创深度学习(DL, Deep Learning)

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。 ...

2022-06-25 18:30:00 2156

原创数据分析（Data Analysis)

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析

2022-06-22 19:52:45 5057 1

原创数据挖掘（DM）

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。数据挖掘是人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决

2022-06-22 19:46:42 1273

原创计算机组成原理：流水CPU

流水CPU的结构流水CPU的基本概念，是以时间并行性为原理构造的处理器。1. 流水计算机的系统组成?现代流水计算机的系统组成原理如图1所示。其中CPU按流水线方式组织，通常由三部分组成：指令部件、指令队列、执行部件。这三个功能部件可以组成一个3级流水线。为了使存储器的存取时间能与流水线的其他各过程段的速度相匹配，一般都采用多体交叉存储器。执行段的速度匹配问题：通常采用并行的运算部件以及部件流水线的工作方式来解决。方法包括：(1)将执行部件分为定点执行部件和浮点执行部件两个可并行执行的部分，分别处理定点运算

2022-06-12 20:43:29 2191

原创指令和数据的寻址方式

1、指令寻址顺序寻址由于指令在内存中是顺序存放，当执行一段程序时，通常是一条指令接一条指令的顺序执行。为了能够指示下一条欲执行指令的指令地址，CPU内部有一个程序计数器 PC (指令指针寄存器IP)，每执行一条指令其值自动加1，指向下一条欲执行指令的指令地址。这种程序顺序执行的过程我们称为指令的顺序寻址。PC 就是用来做指令追踪跳跃寻址方式当程序执行循环指令或者转移指令时，指令的寻址就采取跳跃寻址方式。所谓跳跃，是指下条指令的地址不是由程序计数器PC加1产生，而是将本条指令给出的目标地址装入PC作为

2022-06-12 20:36:13 2680

原创决策树算法

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。决策树算法构造决策

2022-06-08 20:27:55 812

原创 K-Mean算法

K-Mean算法，即 K 均值算法，是一种常见的聚类算法。算法会将数据集分为 K 个簇，每个簇使用簇内所有样本均值来表示，将该均值称为“质心”。明显分离的可以看到(a)中不同组中任意两点之间的距离都大于组内任意两点之间的距离，明显分离的簇不一定是球形的，可以具有任意的形状。基于原型的簇是对象的集合，其中每个对象到定义该簇的原型的距离比其他簇的原型距离更近，如(b)所示的原型即为中心点，在一个簇中的数据到其中心点比到另一个簇的中心点更近。这是一种常见的基于中心的簇，最常用的K-Means就是这样的一种簇类

2022-06-08 20:22:11 2210

原创 RaID磁盘整列的组成方式

是Redundant Array of Independent Disks的缩写，中文简称为独立冗余磁盘阵列，把多块独立的物理硬盘按不同的方式组合起来形成一个硬盘组(逻辑硬盘)，从而提供比单个硬盘更高的存储性能和提供数据备份技术。组成磁盘阵列的不同方式称为RAID级别(RAID Levels) 常用的RAID级别 RAID0，RAID1，RAID5，RAID6,RAID1+0（还有RAID0+1、RAID5+0）RAID又分硬件RAID（在硬件上插阵列卡实现RAID，有自己处理的CPU），软件RAI

2022-05-20 22:58:55 1904

原创 Matplotlib常用图形制

Matplotlib绘制的常用图形包括散点图、线性图、柱状图、直方图、饼图、箱线图和子图。本节中绘图使用的数据文件为：车次上车人数统计表.xls，其表结构如表4-2所示。表4-2 车次上车人数统计表车次日期上车人数 D02 20150101 2143 D02 20150102 856 D02..

2022-05-17 19:52:23 2280

原创数据可视化包Matplotlib

1、 Matplotlib绘图基础Matplotlib是Python中一个二维绘图包，能够非常简单的实现数据可视化。Matplotlib最早由John Hunter于2002年启动开发，其目的是为了构建一个Matlab式的绘图函数接口。下面详细介绍Matplotlib图像构成、Matplotlib图像基本绘图流程、中文字符显示、坐标轴字符刻度标注等基本绘图知识。Matplotlib图像大致可以分为如下4个层次结构：1. canvas（画板）：位于最底层，导入matplotlib库时就自动存在。

2022-05-12 19:56:22 672

原创神经学习（算法）

神经元与激励函数神经元神经元是神经网络的基本组成，如果把它画出来，大概就长成下面这样：图中神经元左边的x表示对神经元的多个输入，w表示每个输入对应的权重，神经元右边的箭头表示它仅有一个输出。当然神经元也有很多种，下面介绍两种比较基础的。神经元1：感知器神经网络技术起源于上世纪五、六十年代，当时叫感知机(perceptron)，其中的单个神经元我们可以叫作感知器。感知器的特点具有浓厚的时代气息：其输入输出都是二进制形式的(据说由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变

2022-04-27 19:51:20 1596

原创数据框的切片

1. 利用数据框中的iloc属性进行切片与数组切片类似，利用数据框中的iloc属性可以实现下标值或者逻辑值定位索引，并进行切片操作。假设DF为待访问或切片的数据框，则访问或者切片的数据=DF.iloc[①,②]。其中①为对DF的行下标控制，②为对DF的列下标控制，行和列下标控制通过数值列表来实现，但是需要注意的是列表中的元素不能超出DF中的最大行数和最大列数。为了更灵活地操作数据，取所有的行或者列，可以用“：”来代替实现。同时，行控制还可以通过逻辑列表来实现。以3.3.3中定义的df2为例，示例代码如下：

2022-04-21 20:02:11 1071

原创数据框的构造

Pandas中另一个重要的数据对象为数据框（DataFram），由多个序列按照相同的index组织在一起形成一个二维表。事实上，数据框的每一列为序列。数据框的属性包括index、列名和值。由于数据框是更为广泛的一种数据组织形式，许多外部数据文件读取到Python中大部分会采用数据框的形式进行存取，比如数据库、excel和TXT文本。同时数据框也提供了极为丰富的方法用于处理数据及完成计算任务。数据框是Python完成数据处理及分析的最重要数据结构之一，因此学会灵活运用数据框是利用Python进行数据处理及挖掘

2022-04-21 19:58:42 4813

原创 CDRAM的结构学习感悟

首先，行选地址通过，数据传输至行地址存储器进行锁存；选中的行在行译码器共512列，进入缓存。然后是列地址列选通过，进行列地址锁存，地址数据进入缓存。二次存选时，需要刷新行选地址。...

2022-04-17 23:24:15 725

原创推理的定义

推理是形式。需要注意的是:如果不能考察某类事物的全部对象，而只根据部分对象作出的推理，不一定完全可靠。思维形式是人们进行思维活动时对特定对象进行反映的基本方式，即概念、判断、推理。思维的基本规律是指思维形式自身的各个组成部分的相互关系的规律，即用概念组成判断，用判断组成推理的规律。它有4条:即同一律、矛盾律、排中律和充足理由律。简单的逻辑方法是指，在认识事物的简单性质和关系的过程中，运用思维形式有关的一些逻辑方法，通过这些方法去形成明确的概念，作出恰当的判断和进行合乎逻辑的推理。学习形式逻辑知识

2022-04-14 20:16:58 312

原创 SRAM的逻辑结构

SRAM是随机存取存储器的一种。所谓的静态是指这种存储器只要保持通电，里面储存的数据就可以恒常保持。SRAM不需要刷新电路即能保存它内部存储的数据，因此SRAM具有较高的性能。SRAM的速度快，一般用小容量的SRAM作为更高速CPU和较低速DRAM 之间的缓存（cache）.SRAM也有许多种，如Async SRAM （异步SRAM）、Sync SRAM （同步高速SRAM）、PBSRAM （流水式突发SRAM），还有INTEL没有公布细节的CSRAM等。不管是哪种 SRAM，其基本的原理大都是通过

2022-04-11 19:58:53 1288

Xiebe的博客