五吾唔-CSDN博客

原创人工智能——数据分析1

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。例如J.开普勒通过分析行星角位置的观测数据找出了行星运动规律。又如，一个企业的领导人要通过市场调查分析所得数据来判定市场动向，从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

2023-06-26 11:37:47 618

原创人工智能——数据挖掘2

SAS/EM是一个图形化界面、菜单驱动、对用户非常友好且功能强大的数据挖掘集成软件,集成了数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程、多种形式的回归工具、建立决策树的数据剖分工具、决策树测览工具、人工神经元网络、数据挖掘的评价工具。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据并不是为了分析的目的而收集的，而是在商业运作过程中由于业务需要而自然产生的。是否采用C/S架构?数据类型——是关系型的、事务型的、文本的、时间序列的还是空间的?

2023-06-26 11:23:38 320

原创人工智能——数据挖掘1

从技术角度，数据挖掘(data mining)是从大量的不完全的、有噪南的(模糊的随机的实际应用数据中提取隐含在其中的、人们事先不知道的,但又是潜化有用的信身和知识的过程。与数据挖掘相近的同义词包括数据融合、数据分析和决策持第。预处理过程这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的:发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

2023-06-26 11:09:32 600

原创数据获取——网络爬虫4

(1)针对有目标网页特征的网页级信息。对应网页库级的垂直搜索.抓取目标网页,后续还要从中抽取出需要的结构化信息。这种技术在稳定性和数量上占优,但成本高、灵活性差。(2)针对目标网页上的结构化数据。对应模板级垂直搜索.直接解析页面.提取并加I工出结构化数据信息。这种技术实施快，成本低，灵活性强.但后期维护成本高。

2023-06-26 10:41:33 133 1

原创数据获取——网络爬虫3

对于此动态网页或小型网站，采取广度优先策略抓取，搜索引擎会先抓取起始网页中链接的所有网页，然后再选择其中的-个链接网页，继续抓取在此网页中链接的所有网页。在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索，逐层进行搜索。聚焦搜索策略最关键的部分就是链接价值的计算方法，不同的计算方法会带来不同的评分价值，得到的评价级别也不一样.这就决定了搜索策略的不同。这种策略按照一定的网页分析算法，先计算出URL描述文本的目标网页的相似度，设定一个值，并选取评价得分超过该值的一一个或几个URL进行抓取。

2023-06-26 10:23:11 655 1

原创数据获取——网络爬虫2

(3)从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP,并将URL对应的网页下载下来,存储到已下载网页库中。(4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些新的URL放人待抓取URL队列，从而进入下一个循环。通常网络爬虫从一个或若干个初始网页上的URL开始，获得初始网页上的URL列表，在抓取网页过程中，不断从当前页面上抽取新的URL放人待抓取URL队列，直到满足系统的停止条件，如图8.2所示。此时，一般会过滤掉队列中已经包含的URL以及循环链接的URL。

2023-06-21 10:58:27 1082

原创数据获取——网络爬虫1

对于搜索引擎来说，要想通过网络爬虫搜索到整个网络的页面是几乎不可能的，主要有两个原因:一是通过现有的手段无法搜索到所有网站的网页.容量再大的搜索引擎系统也不能搜索到所有的网页.这是一个技术瓶颈问题:二是存储问题和技术处理问题，比如一个普通网页大概有100KB(其中包含图片)，目前根据非官方的统计数据互联网大概有1 万亿个网页，数量这么庞大的网页再乘以网页的大小，对于任何搜索引擎来说都是一个海量的数字。网络爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。它的定义有广义和狭义之分。

2023-06-21 10:43:43 397

原创循环神经网络、图神经网络、生成对抗网络

GAN的主要思想来自于零和博弈的思想,GAN的博弈过程可以描述为:生成器生成数据后交给判别器判断是真实数据的可能性，可能性越大得分越高，如果判断器给出的得分低，那生成器就需要根据打分和真实数据获得的损失函数来更新权重，重新生成数据。不同于只能用于网格结构(Grid-based)数据的传统网络模型LSTM和CNN,图卷积网络能够处理具有广义拓扑图结构的数据,并深人发掘其特征和规律，例如PageRank引用网络、社交网络、通信网络、蛋白质分子结构等一系列具有空间拓扑图结构的不规则数据。

2023-03-22 10:54:18 297

原创卷积神经网络

图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像-样,每-一个神经元都不需要对全局图像进行感受，每个神经元只感受局部的图像区域，然后在更高层,将这些感受不同局部的神经元综合起来就可以得到全局的信息。此时如果要提取不同的特征,假设有100种滤波器，每种滤波器的参数不一样，表示它提取输入图像的不同特征，例如不同的边缘。输人图像通过和3个可训练的滤波器和可加偏置进行卷积，卷积后在C1层产生3个特征映射图，然后对特征映射图中每组的4个像素再进行求和,加权值,加偏置，得到3个S2层的特征映射图。

2023-03-22 10:49:50 375

原创总线的定时

总线的一次信息传送过程，大致可分为如下五个阶段:请求总线，总线仲裁，寻址(目的地址)，信息传送，状态返回(或错误报告)。为了同步主方、从方的操作，必须制订定时修定。所谓定时，是指事件出现在总线上的时序关系。下面介绍数据传送过程中采用的几种定时协定:同步定时协定、异步定时协定、半同步定时协定和周期分裂式总线协定。1.同步总线定时协定在同步定时协议中，事件出现在总线上的时刻由总线时钟信号来确定，所以总线中包含时钟信号线。一次VVO 传送被称为时钟周期或总线周期。图 6.12 表示读数据的同步时序例子，所

2022-12-21 09:51:18 1574

原创集中式仲裁

集中式仲裁中每个功能模块有两条线连到总线控制器：一条是送往仲裁器的总线请求信号线BR，一条是仲裁器送出的总线授权信号线BG。链式查询方式为减少总线授权线数量，采用了图6.10(a)所示的菊花链查询方式，其中A表示地址线，D表示数据线。BS线为1，表示总线正被某外设使用。链式查询方式的主要特点是，总线授权信号BG串行地从一个I/O接口传送到下一个I/O接口。假如BG到达的接口无总线请求，则继续往下查询；假如BG到达的接口有总线请求，BG信号便不再往下查询。这意味着该I/O接口就获得了总线控

2022-12-12 16:53:22 862

原创 CPU的功能和基本组成

CPU的功能当用计算机解决某个问题时，我们首先必须为它编写程序。程序是-个指令序列，这个序列明确告诉计算机应该执行什么操作，在什么地方找到用来操作的数据。一旦把程序装入内存储器，就可以由计算机部件来自动完成取指令和执行指令的任务。专门用来完成此项工作的计算机部件称为中央处理器，通常简称CPU。CPU对整个计算机系统的运行是极其重要的，它具有如下四方面的基本功能。指令控制程序的顺序控制，称为指令控制。由于程序是一个指令序列，这些指令的相互顺序不能任意颠倒，必须严格按程序规定的顺序进行，因

2022-12-05 15:31:20 538

原创磁盘阵列RAID

RAID最早称为廉价冗余磁盘阵列，后来改为独立冗余磁盘阵列，它是用多台磁盘存储器组成的大容量外存系统。其构造基础是利用数据分块技术和并行处理技术，在多个磁盘上交错存放数据，使之可以并行存取。在RAID控制器的组织管理下，可实现数据的并行存储、交叉存储、单独存储。由于阵列中的一部分磁盘存有冗余信息，一旦系统中某一磁盘失效，可以利用冗余信息重建用户信息。 RAID是1988年由美国加州大学伯克利分校一个研究小组提出的，它的设计理念是用多个小容量磁盘代替一个大容量磁盘，并用分布数

2022-11-21 15:46:11 558

原创 cache的写操作策略

由于cache的内容只是主存部分内容的副本，它应当与主存内容保持一致。而CPU对cache的写入更改了cache的内容。如何与主存内容保持一致，可选用如下三种写操作策略。1)写回法(write back, copy back),写返回写回法要求：“当CPU写cache命中时，只修改cache的内容，而不立即写入主存；只有当此行被换出时才写回主存。这种方法使cache真正在CPU-主存之间读/写两方面都起到高速缓存作用。对一个cache行的多次写命中都在 cache

2022-11-21 15:33:54 2888

原创 cache的替换策略

cache工作原理要求它尽量保存最新数据。当一个新的主存块需要拷贝到cache，而允许存放此块的行位置都被其他主存块占满时，就要产生替换。替换问题与cache的组织方式紧密相关。对直接映射的cache来说，因一个主存块只有一个特定的行位置可存放，所以解决问题很简单，只要把此特定位置上的原主存块换出cache即可。对全相联和组相联cache来说，就要从允许存放新主存块的若干特定行中选取一行换出。如何选取就涉及替换策略，又称替换算法。硬件实现的常用算法主要有以下三种。1)

2022-11-21 15:29:53 1582

原创计算机的性能指标

吞吐量表征一台计算机在某一时间间隔内能够处理的信息量。响应时间表征从输入有效到系统产生响应之间的时间度量，用时间单位来度量。利用率在给定的时间间隔内系统被实际使用的时间所占的比率，用百分比表示.处理机字长指处理机运算器中一次能够完成二进制数运算的位数，如32位、64位。总线宽度一般指CPU中运算器与存储器之间进行互连的内部总线二进制位数。存储器容量存储器中所有存储单元的总数目，通常用KB、MB、GB、TB来表示。存储器带宽

2022-11-09 20:06:15 195

原创计算机的五代变化

世界上第一台电子数字计算机是1946年在美国宾夕法尼亚大学制成的。这台机器用了18000多个电子管，占地170m²，重量达30吨，而运算速度只有5000次/秒。用今天的眼光来看，这台计算机耗费既大又不完善，但却是科学史上一次划时代的创新，它奠定了电子计算机的基础。自从这台计算机问世70多年来，从使用器件的角度来说，计算机的发展大致经历了五代的变化。第一代为1946~1957年，电子管计算机。计算机运算速度为每秒几千次至几万次，体积庞大，成本很高，可靠性较低。在此期间，形成了计算机的基本体系，确定了

2022-11-09 19:56:01 3733

原创 cache存储器

cache基本原理1. cache的功能 cache是种高速缓冲存储器，是为了解决 CPU和主存之间速度不匹配而采用的一项重要技术。其原理基于程序运行中具有的空间局部性和时间局部性特征。如图3.28所示，cache是介于CPU和主存M2之间的小容量存储器，但存取速度比主存快，容量远小于主存。cache 能高速地向CPU提供指令和数据，从而加快了程序的执行速度。从功能上看，它是主存的缓冲存储器，由高速的SRAM组成。为追求高速，包括管理在内的全部功能由硬件实现，

2022-11-07 19:00:51 759

原创静态随机存取存储器SRAM，基本的SRAM逻辑结构、读/写时序

任何一个SRAM，都有三组信号线与外部打交道：①地址线，本例中有6条，即A0，A1，A2，A3，A4，A5，它指定了存储器的容量是2的六次方64个存储单元。②数据线，本例中有4条，即I/O0，I/O1，I/O2和I/O3，说明存储器的字长是4位，因此存储位元的总数是64×4=256。③控制线，本例中R/W控制线，它指定了对存储器进行读（R/W高电平），还是进行写（R/W低电平）。注意，读写操作不会同时发生。地址译码器输出有64条选择线，称为行线，其作用是打开每个存储位

2022-10-31 16:16:34 6233 3

原创 C语言编程，C语言程序设计，简单代码

2022-10-25 16:13:08 159

原创 C语言程序设计，编程实现：①输入半径，计算并输出圆的面积；②输入一个字符，判断输入的字符是数字、字母还是其他字符；③输入一个三位数字，分别输出其百位、十位、个位；④输入一个数字，判断其奇偶性。

①输入半径，计算并输出圆的面积;②输入一个字符，判断输入的字符是数字、字母还是其他字符;③输入一个三位数字，分别输出其百位、十位、个位;④输入一个数字，判断其奇偶性。

2022-10-12 19:20:03 223

原创奇偶校验码、海明码

奇偶校验码奇偶校验码是一种增加二进制传输系统最小距离的简单和广泛采用的方法。奇偶校验码是奇校验码和偶校验码的统称，是一种最基本的检错码。是一种通过增加冗余位使得码字中"1"的个数恒为奇数或偶数的编码方法。⑴奇偶校验码原理：它是由n-1位信息元和1位校验元组成，可以表示成为（n，n-1）。如果是奇校验码，在附加上一个校验元以后，码长为n的码字中“1”的个数为奇数个；如果是偶校验码，在附加上一个校验元以后，码长为n的码字中“1”的个数为偶数个。奇校验：确保整个被传输的数据中“1”的个数是奇数个，

2022-09-19 15:19:43 1902

原创 BCD码中的8421码、2421码、5421码和余3码

BCD码也称二进码十进数，BCD码可分为有权码和无权码两类。其中，常见的有权BCD码有8421码、2421码、5421码，无权BCD码有余3码、余3循环码、格雷码。有权BCD码就是四位二进制数中每一位数码都有确定的位仅值，若把这四位二进制码按权展开，就可求得该二进制码所代表的十进制数。8421码8421码是最常用的BCD码，是十进制代码中最常用的一种。在这种编码方式中，每一位二值代码的“1”都代表一个固定数值。将每位“1”所代表的二进制数加起来就可以得到它所代表的十进制数字。因为代码中从左至右看每一

2022-09-12 12:51:33 11641

m0_73540824的博客