千梦千微雨-CSDN博客

监督学习和非监督学习首先关于监督学习和非监督学习的区别，监督学习是有一组训练集，并且训练集都标注好了类别属性，我们可以通过训练集来构建分类模型和分类标准。非监督学习的训练集则不带有类别属性，我们需要通过比较训练集的特点构建不同的集群。分类算法（Classification)分类算法就属于前文提到的监督学习中的一种，我们需要通过已知类别属性的训练集来构建分类模型，通过构建好的模型对未知类别属性的数据进行预测。所以分类算法大致包含三部分：模型构建，模型的检测和模型使用。

2022-12-01 21:49:40 626

原创 Pandas介绍

Pandas 库是一个免费、开源的第三方 Python 库，是 Python 数据分析必不可少的工具之一，它为 Python 数据分析提供了高性能，且易于使用的数据结构，即 Series 和 DataFrame。在 Pandas 没有出现之前，Python 在数据分析任务中主要承担着数据采集和数据预处理的工作，但是这对数据分析的支持十分有限，并不能突出 Python 简单、易上手的特点。为了降低初学者的学习门槛，我们的教程尽量采用通俗易懂、深入浅出的语言风格，相信通过对本套教程的学习，您一定会收获颇丰。

2022-12-01 21:47:17 3732

原创 Pandas中创建DataFrame

1 Pandas中创建DataFrame1.1 pd.DataFrame(ndarray数据，index=[‘行索引1’，‘行索引2’]，colunms=[‘列索引1’，‘列索引2’])import numpy as npimport pandas as pda=pd.DataFrame(np.arange(18).reshape(3,6),index=['a','b','c'],columns=['A','B','C','D','E','F'])print(a)# A

2022-10-30 13:42:04 1762

原创数据挖掘与机器学习决策树学习

有监督离散化常用的方法是二分法，即将按照属性值连续的属性值将样本进行排列，找出类别不同的相邻样本，那么离散的边界阈值一定在这些相邻样本间，然后计算每个相邻样本之间阈值的熵减，选择熵减最大的阈值对该属性进行离散化。在实际任务中，难免会遇到有些属性值是连续的，而决策树在进行结点的属性判断时要将样本分为不同的子结点，将连续属性值离散化就成了一个必须的步骤，主要的离散方法包括：无监督离散化和有监督离散化。内部结点对应着属性的判断，通过判断的结果将待测样本划分到该结点的子结点中。

2022-10-22 18:10:54 386

原创 accuracy_score函数

比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc也有 99% 以上，没有意义。如果为true，返回正确分类的样本的比例，必须严格匹配真实数据集中的label，才为1，否则为0。

2022-09-18 16:56:15 11509

原创数据挖掘与机器学习

数据挖掘一般是指从海量数据中提取出其中无法直接获取的信息。通过各种数据源，将信息整合，发掘其内在关系。数据挖掘一般来说有6类，分别是回归、分类、预测、关联分析、预测分析和异常检测。回归：确定两种及以上变量之间相互依赖关系的一种方法。简单来说就是找到自变量和因变量之间的函数关系。根据变量的不同，可分为一元回归和多元回归；根据自变量和因变量之间的关系类型，可分为线性回归和非线性回归。分类：根据事物表现的特征，对事物进行分类，常见有决策树、神经网络、贝叶斯。

2022-09-18 16:47:21 135

原创 HTTP 协议

目录1. HTTP 协议介绍2. HTTP 协议的工作过程3. Fiddler 抓包工具介绍基本介绍：HTTP（Hyper Text Transfer Protocol）：全称超文本传输协议，是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。HTTP 是一种应用层协议，是基于 TCP/IP 通信协议来传递数据的，其中 HTTP1.0、HTTP1.1、HTTP2.0 均为 TCP 实现，HTTP3.0 基于 UDP 实现。现主流使用 HTTP1.0 和 HTT

2022-07-05 20:03:49 524

原创人工智能（14）安全

AI 技术与安全模型人工智能是一种通过预先设计好的理论模型模拟人类感知、学习和决策过程的技术。完整的AI技术涉及到AI模型、训练模型的数据以及运行模型的计算机系统，AI技术在应用过程中依赖于模型、数据以及承载系统的共同作用。AI 模型模型是AI技术的核心，用于实现AI技术的预测、识别等功能，也是 AI 技术不同于其它计算机技术的地方。AI 模型具有数据驱动、自主学习的特点，负责实现机器学习理论和对应算法，能够自动分析输入数据的规律和特征，根据训练反馈自主优化模型参数，最终实现预测输入样本的功能。AI模型

2022-07-05 19:47:03 568

原创人工智能（13）深度学习

人工智能——深度学习深度学习与机器学习的关系深度学习怎么来的浅层学习（Shallow Learning）感知机BP算法（误差反向传播算法）支持向量机深度学习（Deep Learning）深度学习的方法卷积神经网络（CNN）循环神经网络（RNN）玻尔兹曼机（BM）深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是无监督学习的一种。深度学习与机器学习的关系可以理解为应用了多层神经网络的机器

2022-07-02 13:30:20 350

原创人工智能（12）大数据

大数据是什么1大数据概念：（big data ) : 指无法在一定时间内用常规软件工具进行捕捉、管理和处理数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2 数据的存储单位： bit , byte, KB, MB,GB,TB,PB,EB, ZB,YB,BB,NB,DB 。其中1 byte = 8 bit 1K = 1024 Byte 1M =1024k . 1 G = 1024m ,1T = 1024G ,1P = 1024T3大数据主

2022-07-02 13:26:39 538

原创人工智能(11)爬虫简介

爬虫简介1.1 什么是网络爬虫1.1.1 爬虫的简单定义网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来说：使用事先写好的程序去抓取网络上所需要的数据，这样的程序就叫网络爬虫。1.1.2 爬虫的分类网络爬虫可以分为通用网络爬虫(如搜索引擎的爬虫，根据几个URL的种子不断的去抓取数据)和聚焦网络爬虫(有选择性的抓取预先定义....

2022-06-30 08:48:18 1261

原创人工智能(10)数据挖掘

1.数据挖掘含义数据收集和存储技术的发展使得各组织机构能够积累海量的数据。但是，由于数据量太大，传统的数据分析工具和技术已经不再适用，因此，需要开发新的方法来对数据进行处理。数据挖掘（data mining）就是利用一系列技术和方法从海量数据中找出隐藏于其中的潜在、有用的新知识的过程。在庞大的数据中找到有价值的知识，就好像在一堆沙子中淘金，因此被形象的称为data mining。2.相关概念辨析知识发现与数据挖掘：数据挖掘是知识发现(knowledge discovery)的核心，是其中的一个步

2022-06-30 08:45:17 1914

原创计算机组成原理(11)控制单元的功能

控制单元的功能1 微操作命令的分析控制单元具有发出各种微操作命令（即控制信号）序列的功能。一、取指周期 P375二、间址周期三、执行周期四、中断周期2 控制单元的功能一、控制单元的外特性1、输入信号2、输出信号二、多级时序系统1、机器周期（1）机器周期的概念所有指令执行过程中的一个基准时间。（2）确定机器周期需考虑的因素1）每条指令的执行步骤2）每一步骤所需要的时间（3）基准时间的确定1）以完成最复杂指令功能的时间为准2）以访问一次存储器的时间为基准2

2022-06-30 08:38:56 604

原创计算机组成原理（10）CPU的结构和功能

1 CPU的结构一、CPU功能计算机对信息进行处理(或计算)是通过程序的执行而实现的，程序是完成某个确定算法的指令序列，要预先存放在存储器中。控制器的作用是控制程序的执行,它必须具有以下基本功能:1、取指令控制器必须具备能从存储器中取出指令的功能。2、分析指令分析指令包括两部分内容：其一，分析此指令要完成什么操作，即控制器需发出什么操作命令；其二，分析参加这次操作的操作数地址，即操作数的有效地址。3、执行指令执行指令就是根据分析指令产生的“操作命令”和“操作数地址”的要求，形成操作控制信号序

2022-06-30 08:36:13 2634

原创人工智能（9）决策树学习

判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　分支　　　　根结点　　　　　　　　　　　　　　　　　　　　　　　　　　　

2022-06-25 16:22:23 678

原创计算机组成原理（9）指令系统

机器指令人们习惯把每一条机器语言的语句称为机器指令,而又将全部机器指令的集合称为机器的指令系统。一、指令的一般格式1、指令的基本格式计算机是通过执行指令来处理各种数据的.为了指出数据的来源,操作结果的去向及所执行的操作,一条指令必须包含下列信息:(1)操作码,具体说明了操作的性质及功能.(2)操作数的地址.(3)操作结果的存储地址.(4)下一条指令的地址.从上述分析可知,一条指令实际上包括两种信息即操作码和地址码。操作码(operation code)用来表示该指令所要完成的操作(如加,减,乘,除,

2022-06-25 16:12:19 1129

原创计算机组成原理（8）定点运算

一、移位运算1、算数移位规则正数：原码、补码、反码填0；负数：原码填0；补码左移填0，右移填1；反码填1；2、对于正数，三种机器数移位后符号均不变，左移时最高数位丢1，结果出错；右移时最低位丢1，影响精度。对于负数，三种机器数算数移位后符号位均不变。负数原码左移时，高位丢1，结果出错；右移时，低位丢1，影响精度。负数的补码左移时，高位丢0，结果出错3、算术移位和逻辑移位的区别算术移位：有符号数的移位。逻辑移位：无符号数的移位。逻辑左移：低位填0，高位移丢。逻辑右移：高位填0

2022-06-25 16:10:34 562 1

原创计算机组成原理（7）数的定点表示和浮点表示

一、定点表示小数点固定在某一位置的数为定点数，当小数点位于数符和第一数值位之间时，机器内的数为纯小数；当小数点位于数值位之后时，机器内的数为纯整数。采用定点数的机器称为定点机。二、浮点表示1、浮点数是指小数点位置可浮动的数据,通常以下式表示:N = S × r的j次方式中，S为尾数，j为阶码，r是基数。在计算机中，基数可取2、4、8或16等。2、浮点数由阶码j和尾数S表示，阶码是整数，阶符和阶码的位数m合起来反应浮点数的表示范围及小数点的实际位置；尾数是小数，其位数n反映了浮点数的精度；3、浮

2022-06-25 16:08:44 2181

原创计算机组成原理（6）计算机的运算方法

目录1 无符号数和有符号数2 数的定点表示和浮点表示3 定点运算一、无符号数无符号数就是指正整数，机器字长的全部位数均用来表示数值的大小，相当于数的绝对值。一、有符号数1、机器数与真值带符号数是指在计算机中将数的符号数码化。在计算机中,一般规定二进制的最高位为符号位，最高位为“0”表示该数为正，为“1”表示该数为负。这种在机器中使用符号位也被数码化的数称为机器数，把带‘+’或‘-’符号的数称为真值。根据符号位和数值位的编码方法不同，机器数分为原码,补码和反码。2、原码表示法机器数的最高位为符号位,

2022-06-18 13:26:49 2011

原创计算机组成原理(5)输入输出系统

第五章输入输出系统5.1 概述一、输入输出系统的发展概况二、输入输出系统的组成三、 I/O设备与主机的联系方式1．I/O编址方式通常将I/O设备码视为地址码,对I/O地址码的编址可采用两种方式：（1）统一编址：用取数、存数指令。就是将I/O地址看作是存储器地址的一部分.如在64K地址的存储空间中,划出8K地址作为I/O的地址,.凡是在这8K地址范围内的访问,就是对 I/O的访问,所用的指令与访存指令相似。（2）不统一编址：有专门的I/O 指令，就是指I/O地址和.

2022-06-14 21:51:47 1172

原创计算机组成原理（4）总线

总线的基本概念

2022-06-14 21:16:32 282

原创计算机组成原理（3）计算机的工作过程及性能指标

计算机的工作过程1.指令执行过程的描述：IR存放当下欲执行的指令；PC存放下一条指令的地址；MAR存放欲访问的存储单元地址；MDR存放从存储单元取来的数据！地址译码器是主存的构成部分，不属于CPU；地址寄存器虽然一般属于主存，但是现代计算机中绝大多数CPU内集成了地址寄存器！关于CPU存取速度的比较：寄存器（CPU内部）> Cache(高速的SRAM) > 内存（SDRAM）上图是计算机的工作流程，首先PC将指令地址发送给MAR，MAR根据地址在存储体中找到指令数据存

2022-06-06 16:41:12 556

原创人工智能（8 ）机器学习2

目录一、概述二、记忆学习三、归纳学习四、决策树学习五、类比学习一、概述机器学习是人工智能的重要研究领域之一。1.机器学习的基本概念要了解么是机器学习，就要从人类的“学习”说起可以说人们每天都在学习，可是终究什么是学习，至今都没有一个统一的定义。以下是关于学习且比较有影响的定义： 1) 西蒙认为，学习就是系统中的适应性变化，这种变化使系统在重复同样工作或类似工作时，能够做得更好 2) 米哈尔斯基认为，学习是对经历描述的建议和修......

2022-05-28 17:35:44 918

原创计算机组成原理(2)RAID的种类和区别

RAID技术RAID是一种把多块独立的硬盘（物理硬盘）按不同的方式组合起来形成一个硬盘组（逻辑硬盘），从而提供比单个硬盘更高的存储性能和提供数据备份技术。RAID全称Redundant Array of Independent Disks；即独立磁盘冗余阵列。RAID优势：容量易扩展、分块提高性能、可用性提高及可靠性提高。RAID级别的选择不同的RAID级别代表着不同的性能、数据安全性和存储成本。RAID常用级别：RAID0、RAID1、RAID10、RAID5、RAID6。...

2022-05-20 10:09:27 390

原创计算机组成原理（1）存储系统

一、半导体随机存取存储器1.基本结构 2.随机存储器RAM 3.只读存储器ROM 4.RAM和ROM区别二、主存储器与CPU的连接1.主存容量的扩展 2.存储器与CPU的连接 3.片选三、并行技术1.双端口RAM(空间并行) 2.多模块存储器(时间并行)四、高速缓存Cache(采用SRAM)1.工作原理1 2.Cache命中率与平均访问时间 3.Cache和主存的映射方式 4.Cache中主存块的替换算法五、虚拟存储器1.Cache写策略 2.页式虚拟存储器(

2022-05-06 16:47:17 77

原创人工智能（7）机器学习

1.概述机器学习是人工智能的重要研究领域之一。2.机器学习的基本概念要了解什么是机器学习，就要从人类的“学习”说起，可以说人们每天都在学习，可是终究什么是学习，至今都没有一个统一的定义以下是关于学习且比较有影响的定义：（1）西蒙认为，学习就是系统中的适应性变化，这种变化使系统在重复同样工作或类似工作时，能够做得更好。（2）米哈尔斯基认为，学习是对经历描述的建议和修改。（3）蔡普金认为，学习是一种过程，通过对系统重复输入各种信号，并从外部校正该系统，从而系统对特定的输入具有特定的响应

2022-04-27 20:25:43 1538

原创人工智能(6)人工智能的应用

1. 自动化人工智能开发在过去几年中，自动化AI越来越受欢迎。它最近见证了一些重要的研究兴趣。如Google的AutoML或IBM的AutoAI。AutoML旨在简化推理模型的创建和管理。AutoAI是一个有助于数据准备，特征工程和超参数优化的平台。神经符号AI的演变也是另一个重要方面。神经符号AI是将数据驱动方法和基于知识的方法相结合的领域之一。Neurosymbolic Concept Learner（NSCL）是由IBM和MIT合作开发的一种工具，可以解决涉及大数据需求和缺乏可解释性的问...

2022-04-27 20:04:06 2984

m0_62703957的博客

原创表格文字，颜色与大小

原创数据挖掘：分类算法