时光机丶-CSDN博客

原创《百面机器学习》学习笔记（二）—模型评估

一、评估指标1、准确率准确率是指分类正确的样本占总样本个数的比例Accuracy=ncorrectntotalAccuracy=\frac{n_{correct}}{n_{total}}Accuracy=ntotalncorrect2、精确率精确率是自分类正确的正样本个数占分类器判定为正样本的样本个数的比例3、召回率召回率是指分类正确的正样本个数占真正的正样本个数的比例二、RO...

2019-07-10 15:06:23 369

原创《百面机器学习》学习笔记（一）—特征工程

一、什么是特征工程在机器学习中，没有充足的数据、合适的特征，再强大的模型结构也无法得到满意的输出。正如一句业界经典的话所说，“ Garbage in, garbage out” 。对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型、算法的选择应优化则是在逐步接近这个上限。特征工程，服各思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来...

2019-07-09 15:53:52 426

原创 Tensorflow学习（一）—线性回归

线性回归表达式f(xi)=wxi+bf(x_i)=wx_i+bf(xi)=wxi+b定义线性回归的损失函数loss=1n−1∑i=1n(y^−y)2loss=\frac{1}{n-1}\sum^n_{i=1}(\hat{y}-y)^2loss=n−11i=1∑n(y^−y)2通过梯度下降法，不断的去更新权重 www , bbb 来最小化损失函数。导入相关包和初始化学习率、迭代次...

2019-07-04 15:39:10 425

原创软件测试学习杂记

软件测试概述软件测试的定义软件测试是在可以控制的条件下操作一个系统或者应用程序，并且对结果进行评价的活动。也是验证程序正确并符合用户需求的过程软件测试的重要性软件需求—用户：我要什么需求规格说明—分析员：我可以提供什么设计说明书—设计员：我要让软件怎么做源程序—程序员：我要让计算机怎么做运行结果—计算机：程序运行得到结果软件测试作用1）保证产品质量2）缩减开发成本3）降低风...

2019-06-26 22:44:41 278

原创信息安全概论学习杂记

信息安全概论信息安全的外延和内涵:外延:在经济和商业领域，主要强调削弱并控制风险。内涵:在现代信息系统中，ISO的定义为:在技术和管理上为数据处理系统建立的安全保护，保护信息系统的硬件，软件及相关数据不因偶然或恶意的原因被破坏。信息安全体系:1.面向目标的体系:目标主要指CIA这个三元目标组：即机密性，完整性，可用性；而密码学是这三个目标的基础。2.面向应用的层次型技术体系:保护各信息...

2019-06-25 22:24:53 1516

原创大数据分析学习杂记（下）

贝叶斯分类和因果学习贝叶斯决策论贝叶斯决策论（Bayesian decision theory）是在概率框架下实施决策的基本方法。对分类问题，在所有相关概率都已知的理想情形下，贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯分类器贝叶斯网络贝叶斯网 (Bayesian network)亦称“信念网”(brief network)，它借助有向无...

2019-06-24 22:09:14 338

原创大数据分析学习杂记（上）

什么是数据数据是人类对所感兴趣的对象特征的记录，数据用于描述事实，具有时间和空间属性大数据大数据 =海量数据（交易数据、交互数据）+针对海量数据处理的解决方案大数据不仅仅指的是数据量庞大，更为重要的是数据类型复杂大数据的4V特征数据挖掘-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。◆ 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义...

2019-06-24 08:44:18 513

原创计算机组成原理学习杂记

计算机系统概论计算机系统是由“硬件”和“软件”组成。衡量一台计算机性能的优劣是根据多项技术指标综合确定的，既包括硬件的各种性能指标，又包括软件的各种功能。计算机硬件计算机中的电子线路和物理装置五大部分：运算器、控制器、存储器、输入设备、输出设备计算机系统5层层次结构微程序机器、传统机器、操作系统机器、汇编语言机器、高级语言机器微程序机器和传统机器是物理机，其他是虚拟机运算方法和运...

2019-06-23 16:56:42 247

原创汇编语言学习杂记（一）

汇编语言的简要介绍学习编程其实就是学高级语言，即那些为人类设计的计算机语言。但是，计算机不理解高级语言，必须通过编译器转成二进制代码，才能运行。学会高级语言，并不等于理解计算机实际的运行步骤。计算机真正能够理解的是低级语言，它专门用来控制硬件。汇编语言就是低级语言，直接描述/控制 CPU 的运行。如果你想了解 CPU 到底干了些什么，以及代码的运行步骤，就一定要学习汇编语言。汇编语言是...

2019-06-22 17:38:00 266

原创《深度学习》学习笔记（一）—线性代数基础

标量、向量、矩阵和张量标量：一个标量就是一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组）。向量：一个向量是一列数。这些数是有序排列的。通过次序中的索引，我们可以确定每个单独的数。x=[x1x2..xn]x=\begin{bmatrix} x_1 \\ x_2 \\.\\. \\ x_n\end{bmatrix}x=⎣⎢⎢⎢⎢⎡x1x2..xn⎦⎥⎥⎥⎥...

2019-06-03 16:00:41 198

原创《机器学习》学习笔记（二十七）—结构化学习：序列标注

序列标注序列标注的的输入是一个序列，他的输出也是一个序列。一个典型的例子就是词性标注（pos tagging）。在日常中用的词有的是名词，有的是动词，但是动词中还有专有名词，非专有名词等。所以对于词性的标注还是有必要的。在上面这个例子中有两个 saw ，其中第一个 saw 是动词，而第二个 saw 是名次，所以需要理解整个句子的含义才能做出正确的词性标注。隐马尔科夫模型（HMM）首先在...

2019-05-18 10:34:14 705

原创《数据挖掘：理论与算法》学习笔记（十）—推荐算法

信息爆炸时代推荐系统包括两种方式—基于内容的过滤和协同过滤隐含语义分析Tf-idfTF—出现频率IDF—在其他文档中出现的频率，（在其他文档也经常出现，则IDF值会比较低）向量空间模型相似度—余弦距离存在的问题LSA—隐含语义分析PageRank协同过滤...

2019-05-16 14:06:56 596

原创《数据挖掘：理论与算法》学习笔记（九）—关联规则

关联规则例子：支持度与置信度关联规则的支持度关联规则的置信度例子Apriori算法

2019-05-15 20:42:41 874

原创机器学习实战（八）—神经网络实现手写数字识别

import numpy as np #导入numpy工具包from os import listdir #使用listdir模块，用于访问本地文件from sklearn.neural_network import MLPClassifier def img2vector(fileName): retMat = np.zeros([1024],int) #定义返...

2019-05-15 08:18:46 1081

原创机器学习实战（七）—线性回归问题

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import linear_model # 读取数据集datasets_X = []datasets_Y = []fr = open('prices.txt','r')lines = fr.readlines()for line in lines: ...

2019-05-14 22:32:10 359

原创机器学习实战（六）—分类问题

import pandas as pdimport numpy as np from sklearn.preprocessing import Imputerfrom sklearn.cross_validation import train_test_split from sklearn.metrics import classification_report from s...

2019-05-13 22:57:56 816

原创《数据挖掘：理论与算法》学习笔记（六）—神经网络

感知机—神经网络最基本的模型感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取1和0）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中，w0w_0w0 是一个偏差值，这个条件是必要的，如果没有这个条件，切平面会经过原点。我们需要这个偏差值控制决策平面到原点的距离。下图中感知机实现了与门和或门的功能为了求得...

2019-05-13 12:35:39 827

原创《机器学习》学习笔记（二十六）—结构化学习：结构型支持向量机

回顾结构化学习结构化学习的统一框架可以分为下面两个部分第一步就是通过训练得到函数，第二步是给定数据，找到最符合的 yyy 。结构化学习要解决的三个问题首先要确定的问题是，找到函数 F(x,y)F(x,y)F(x,y) 的表示形式。第二个问题是，如果给定了一个 F(x,y)F(x,y)F(x,y) 和输入数据 xxx 如何找到对应的最大的 yyy ，这个一般假设是通过穷举的方法得到的。最...

2019-05-12 20:32:16 437

原创《数据挖掘：理论与算法》学习笔记（五）—决策树

决策树模型决策树是一种用于对实例进行分类的树形结构。决策树由节点（node）和有向边（directed edge）组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具有不同特性的记录），叶子节点表示一个分类。一旦我们构造了一个决策树模型，以它为基础来进行分类将是非常容易的。具体做法是，从根节点开始，地实例的某一特征进行测试，根据测试结构将实例...

2019-05-12 15:34:37 613

原创《数据挖掘：理论与算法》学习笔记（四）—贝叶斯分类

什么是分类分类是一项生存的基本技能，例如，动物对天敌和猎物进行分类。分类是一种有监督的学习，从数据中产生模型，输入一组样本特征后，能很好地将其归为某个类别。（包括二分类和多分类）贝叶斯定理如下所示，用于计算B事件发生的情况下A发生的概率朴素贝叶斯朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。...

2019-05-12 13:56:50 512

原创 Python数据分析与展示（四）—数据特征分析

数据的排序Pandas库的数据排序.sort_index()方法在指定轴上根据索引进行排序，默认升序.sort_index(axis=0, ascending=True).sort_values()方法在指定轴上根据数值进行排序，默认升序Series.sort_values(axis=0, ascending=True) DataFrame.sort_values(by, axis...

2019-05-11 20:35:42 616

原创《数据挖掘：理论与算法》学习笔记（三）—数据预处理（下）

数据可视化（Data Visualization）借助于图形化手段，清晰有效地传达与沟通信息。一维数据比较简单，可以做成饼图、直方图、曲线等等…二维数据的可视化散点图，上图是汽车排量和加速度之间的关系图，我们可以对该二位数据做回归 Regression 看看它们之间有什么关系。三维数据的可视化但是当维度到四维或者更高的维度时，一般人很难想象这些高维的空间，也很难直接可视化出来，这...

2019-05-11 17:34:16 1072

原创 Python数据分析与展示（三）—Pandas库

Pandas—提高高性能易用数据类型和分析工具引用importpandas aspdPandas基于NumPy实现，常与NumPy和Matplotlib一同使用两个数据类型—Series，DataFrameSeries类型Series类型由一组数据及与之相关的数据索引组成Series类型可以由如下类型创建：Python列表，index与列表元素个数一致标量值，i...

2019-05-11 14:47:26 343

原创机器学习实战（五）—降维（PCA与NMF）

import matplotlib.pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.datasets import load_irisdata = load_iris()#字典形式加载数据集y = data.targetX = data.data#y代表标签，X代表数据pca = PCA(n_compo...

2019-05-11 12:42:56 4031 1

原创《数据挖掘：理论与算法》学习笔记（二）—数据预处理（上）

数据预处理过程数据清洗—>数据转换—>数据描述—>特征选择—>特征提取为什么要进行数据预处理原始的数据不利于直接进行数据挖掘，因为：数据不完整存在错误数据数据存在重复信息数据量过大等等。。。如何解决丢失的数据问题进行选择性忽视人工补全（比如重新收集、经验填充）自动补全（利用数据的均值等）等等。。。离群点（Outlier）如何对这些...

2019-05-11 11:01:17 1309

原创 Python数据分析与展示（二）—Matplotlib库

MatplotlibPython优秀的数据可视化第三方库Matplotlib的使用import matplotlib.pyplot as pltpyplot的绘图区域plt.subplot(nrows, ncols, plot_number)pyplot的plot()函数plt.plot(x,y, format_string, **kwargs)pyplot的中...

2019-05-10 23:08:55 250

原创《机器学习》学习笔记（二十五）—结构化学习：线性模型

结构化线性模型回顾之前的结构化学习，我们可以知道结构化学习可以分为下面三个问题其中第一个问题是估计关系的时候我们需要给出估计 x,yx,yx,y 匹配程度的一个具体形式；在第二个问题中，我们往往假设我们已经找到了是函数值最大的 yyy；在第三个问题中，给定训练数据，我们如何得到函数 F(x,y)F(x,y)F(x,y)。问题一：F(x,y)F(x,y)F(x,y) 的具体形式F(x,y)...

2019-05-10 20:45:09 796

原创《数据挖掘：理论与算法》学习笔记（一）—走进数据科学

什么是数据大概的意思是一些定量或者定性的属性，比如一个人的身高体重，年龄，性别，婚姻状况等等。信息信息比数据高一个层面，数据通过处理才叫信息。Data Rich，Information Poor数据非常多，但是从数据中挖掘出有用的数据非常少什么是大数据大数据的特点：high-volume，high-velocity，high-variety（数据量大、数据产生的速度快、数据的类型...

2019-05-10 18:51:32 2874

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一个出现得比较早（1996年），比较有代表性的基于密度的聚类算法。算法的主要目标是相比基于划分的聚类方法和层次聚类方法，需要更少的领域知识来确定输入参数；发现任意形状的聚簇；在大规模数据库上更好的效率。DBSCAN能够将足够高密度的区域划分成簇，并能在具有噪声的...

2019-05-10 09:56:33 1033

原创 Python数据分析与展示（一）—Numpy

数据维度的 Python 表示一维数据：列表和集合类型列表（有序）[3.1398,3.1349,3.1376]集合（无序）{3.1398,3.1349,3.1376}二维数据：列表类型[[3.1398,3.1349,3.1376], [3.1413,3.1404,3.1401]]多维数据：列表类型Numpy的数组对象：ndarray1、数组类型相对列表类型具有的优势• ...

2019-05-09 23:44:31 280

原创机器学习实战（三）—K均值聚类算法

import numpy as npfrom sklearn.cluster import KMeans def loadData(filePath): fr = open(filePath,'r+') lines = fr.readlines() retData = [] retCityName = [] for line in lines: ...

2019-05-09 22:46:24 1147 1

原创《机器学习》学习笔记（二十四）—结构化学习介绍

什么是结构化学习所谓的结构化学习就是输入或者输出具有结构的数据，而在之前的学习之中，输入和输出都是向量。在结构学习中，我们需要学习的是一个函数 FFF 。如下图所示，它的输入是一种形式，而输出是另一种形式。结构化学习的应用结构化学习的统一框架在训练的过程中，我们希望找到这样的一个函数 fff ，用它来评价我们输入与我们的输出的匹配程度。在测试过程中，给定一个 xxx，我们穷举所有的...

2019-05-09 21:14:38 833

原创《机器学习》学习笔记（二十三）—初探强化学习

强化学习的场景智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大。如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强有一个 agent ，他在一个环境中，观察到一个反馈执行一个行为，这个行为改变了环境的值，agent 得到一个对应的奖励。比如说，在下围棋的时候，落一个子，然后棋盘的环境发生了改变，如果最后赢了这盘...

2019-05-08 19:50:46 421

原创《机器学习》学习笔记（二十二）—Ensemble（模型集成）

模型集成的框架每种分类器都应该有自己的位置Ensemble：Bagging1、偏置与方差的关系除了可以很完美进行工作的机器学习模型，剩下的模型大致可以分为两种情况，即欠拟合（Underfitting）和过拟合（Overfitting）。欠拟合的特点在于它具有比较小的方差，但是却有着比较大的偏置（即与正确答案的偏离方向）；而过拟合虽然有着较小的偏置，但是却有着较大的方差，将这两种情况画...

2019-05-07 20:27:18 792

原创《机器学习》学习笔记（二十一）—RNN（循环神经网络）

为什么要用循环神经网络如下图所示是一个填空系统，他需要做的是给定一句话，然后从这句话中选出需要的词填在对应位置的空中，具体来讲如下图所示比如说输入一句 “I would like to arrive Taipei on November 2nd.”那么订票系统给就应该自动的在目的地出填入 Taipei ，在到达时间填入 November 2nd。我们可以使用一个简单的前向传播网络实现这个功...

2019-05-06 14:06:05 1320

原创机器学习实战（二）—Softmax 回归

import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data#读取数据集mnist = input_data.read_data_sets("MNIST_data/",one_hot = True)#设置训练数据 x，连接权重 W 和偏置 bx = tf.placeholder("f...

2019-05-06 09:39:02 274

原创《机器学习》学习笔记（二十）—支持向量机

支持向量机主要有两部分组成Hinge Loss（铰链损失）和 Kernel Method（核方法）。损失函数输入的数据数据的标签是两类，即 +1 和 -1。在这里取模型的函数为所以分类用的损失函数为：其中定义当计算出的函数值与标签值不相等的时候取1，相等的时候函数值取0。但是这样的得到的函数有一点不好，它无法进行微分，所以我们采用了另外一种函数作为损失函数，即对各种损失函数的...

2019-05-05 09:51:15 343

原创机器学习实战（一）—K-近邻算法

k-近邻算法简单来说，k-近邻算法采用测量不同特征值之间的距离方法进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高适用数据范围：数值型和标称型工作原理：存在一个样本数据集合，样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特...

2019-05-04 10:42:05 183

空空如也

空空如也