今天为啥这么困-CSDN博客

原创机器学习——分类方法对比

主要针对二分类，可以推广到多分类（一对一，一对多）；对线性关系有比较好的拟合；缺点：对取值多的特征有偏向性；忽略了特征之间的关系；不适用于高维稀疏数据。优点：对于数据型和非数据型特征都适用；有数学基础作为支撑；优点：思想简单，理论成熟，既可以分类又可以回归；优点：对于数据型和非数据型特征都适用；缺点：认为特征之间相互独立，这往往不一定成立；优点：线性可分和非线性分类都能搞定；缺点：计算复杂度高；对噪声和缺失数据敏感；需要选择合适的核函数。缺点：计算复杂度高；缺点：对特征工程的要求比较高。

2024-05-02 16:23:49 274 1

原创聚类方法知多少

（1）确认一个度量数据点相似性的距离度量方式：曼哈顿距离、欧几里得距离、相关性系数等。（4）需要注意的是，在这个合并的过程中可以用树形结构记录聚类之间的合并顺序和相似度。（3）根据相似性，逐步合并近的聚类，形成更大的聚类，并重复此操作直到满足停止条件。（3）在聚类中，将距离最远的样本分到两个新的类，重复此操作直到满足条件。（2）如果该点是核心点，形成一个新的簇，并给簇内的点添加标签；（3）如果该点是边界点，没有密度可达的点，则访问下一个点；（1）对于每个未做标记的点，找密度可达的所有点。

2024-04-28 16:52:59 229 1

原创机器学习9——一文搞定集成学习

训练过程：Boosting的模型训练是迭代式进行的，每个样本都有一个权重，前一个模型分类错误的样本在下一轮的模型训练中就会有较大的权重。模型迭代就是希望可以不断修正前一个模型的不足。AdaBoost是一种Boosting算法，每一轮迭代都给上一轮被错误分类的样本更高的权重，弱分类器最后根据其准确度进行加权组合。训练过程：有放回地抽样（bootstrap）获得多个数据集，每个数据集用于训练一个基本模型。多个模型训练相互独立，可以并行。模型集成：加权平均的方式集成每个模型的输出，权重由每个模型的性能进行分配。

2024-04-24 13:37:04 131

原创机器学习7——一文搞定k近邻算法（KNN）

2.交叉验证法：将数据集分成若干子集，在每个子集中进行KNN，用不同的k值进行测试，最后选择最合适的k；给定一个待预测样本，找到已知样本中离它最近的k个，根据这k个的标签情况对该待预测样本进行分类或者回归。较小的k容易过拟合，较大的k容易都到不相关的数据点的干扰。5.特征空间高维情况下，数据点稀疏，以距离为指标的数据相关性判断并不一定准确。1.最朴素的想法：大的数据集就稍微选大的k，小数据集选较小的k；2.每次都要计算待测数据和所有数据的距离，计算量巨大；3.对类别不平衡的问题极为敏感；

2024-04-24 10:04:43 242

原创机器学习系列——一文搞定逻辑回归

尽管名字中带有“回归”这个词，但逻辑回归实际上是一种分类算法，用于预测二分类或多分类问题。逻辑回归基于线性回归模型，但它使用了逻辑函数（也称为 Sigmoid 函数）将线性组合的输出转换为一个介于 0 和 1 之间的概率值。在二分类任务中，使用sigmoid函数作为激活函数。sigmoid函数将输出值压缩到 (0,1)范围内，可以看作是一个概率值，表示正类别的概率。（1）多个类别挑出一个类别当作正类，其他负类，训练多个分类器；数据准备，特征提取，最大化似然函数拟合模型参数，预测与评估。

2024-04-23 13:16:02 312

原创机试必备1——Python的输入读取方法

eval(input):读取的东西回归它原本的样子，该是list就还是list，是计算式就能输出答案。input(): 按行读取，返回string。

2024-04-21 10:41:31 253 2

原创分类任务下的数据集文件格式

分类任务的数据集文件结构

2022-09-01 20:00:43 186 1

原创 .pynb转.py

2022-02-24 15:25:32 410

原创 anaconda创建虚拟环境并安装tensorflow

安装并验证tensorflow安装命令：conda create -n tensorflow python=3.6$ source activate tensorflow(tensorflow)$ conda install tensorflow-gpu验证：$ (tensorflow)pythonimport tensorflow as tfprint(tf.test.gpu_device_name())

2022-02-24 10:12:33 988

原创 Python环境卸载与安装备忘

卸载1.在环境变量里面删掉py相关的变量，系统和用户的都要删掉；2.删掉所有相关的文件夹和程序。安装1.不要安装在C盘；2.点击installer安装在合适的文件夹里面；3.添加环境变量：包括Python.exe的环境变量和script的路径（该路径包括script本身），后者决定了pip是否可用；4.想要安装的库例如numpy，直接cmd，然后pip install numpy。...

2021-08-05 11:47:32 185

原创操作系统随手记

Chapter 1 ,2 (待补充)1.concepts about programmed I/O, interrupt driven I/O, direct memory access:程序控制IO给CPU造成了较大的负担，IO操作开始前、完成后都需要CPU的参与，在此过程中还需要CPU轮询，导致CPU和IO设备只能串行运行，CPU利用率低；中断控制IO，CPU等待IO设备向自己通知，提高了CPU的利用率；DMA，仅在传输一个或多个数据的开始和结束时才需要CPU的干涉，减少了中断CPU的次数，数据传送

2021-06-23 19:30:10 1196

原创 2021-05-23

数据库的存储结构数据库的存储介质问：数据库存储介质为什么不可以是内存？三个原因。1.内存存储空间小，容量不够；2.内存成本比辅助存储器要高；3.内存属于易失存储器，即使有后备电池，但电池也会没电，所以不能用来存储数据库。所以一般用磁盘来存储数据库。磁盘读取数据的时间由三个部分组成：寻道时间，旋转延迟时间和传输时间。问：为什么磁盘按照物理块而不是更小的数据单位为单位存储数据？1.减少I/O次数，减少寻道时间；2.减少间隙的数目。这里要注意，为什么买回来的内存标注的存储空间比实际的要小，因为在划

2021-05-23 23:16:57 269

原创 2021-05-09

计网——chapter3 运输层运输层协议为运行在不同主机上的应用进程之间提供了逻辑通信（login communication）功能。运输层协议是在端系统而不是路由器上实现的。运输层将来自应用层的报文转换成运输层分组，加上运输层首部形成运输层报文段（segment）。运输层协议有TCP（传输控制协议），UDP（用户数据报协议）。相关概念：IP是网络层的传输协议，是best-effort delivery service, unreliable service.UDP和TCP的任务就是把两个端系统之

2021-05-09 21:04:34 137

原创 2021-05-08

计网——chapter 2 应用层协议栈（从上至下）:application-layer messagetransport-layer segmentnetwork-layer datagramlink-layer frame结构：首部字段+payload field应用层的2种结构（application architecture）:client-server architecture, P2P architecture客户服务器进程：即使是P2P architecture，也能认为其中

2021-05-08 23:33:19 169

Shakira12138的博客