CoderMateng-CSDN博客

原创【数据结构】队列的链式实现

//链式队列定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int ElemType;typedef struct LinkNode{ ElemType data; struct LinkNode *next;} LinkNode;typedef struct LinkQueue{ L

2022-01-20 11:15:01 466

原创【数据结构】队列的顺序实现

//顺序队列定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int ElemType;//定义顺序队列#define MaxSize 10typedef struct SqQueue{ ElemType data[MaxSize]; int front, rear; //队头和队尾指针} Sq

2022-01-14 16:27:01 386

原创【数据结构】链栈的定义和基本操作

//链栈定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int Elemtype;typedef struct LiStack{Elemtype data; //数据域struct LiStack *next; //指针域} LiStack; //栈类型定义//初始化链栈void InitLiStack(LiSt

2022-01-14 10:16:24 718

原创【数据结构】顺序栈定义及基本操作

//顺序栈定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int Elemtype;#define MaxSize 10 //定义栈中元素的最大个数typedef struct SqStack{Elemtype data[MaxSize]; //使用静态数组存放栈中元素int top; //栈顶指针} SqStac

2022-01-14 08:15:16 417

原创【数据结构】循环链表定义及基本操作

//循环链表定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int Elemtype;//定义循环单链表节点类型typedef struct CLinkList{Elemtype data; //数据域struct CLinkList *next; //指针域} CLinkList;//初始化循环单链表bool

2022-01-10 22:19:07 732

原创【数据结构】双链表定义及基本操作

//双链表定义及各类操作#include<stdio.h>#include<string.h>#include<stdlib.h>#include<stdbool.h>typedef int Elemtype;//定义双链表节点类型typedef struct DLinkList{ Elemtype data; //数据域 struct DLinkList *prior, *next; //前驱指针，后继指针} DLink

2022-01-07 14:15:14 660

原创【数据结构】单链表定义及基本操作

C语言实现单链表的定义及基本操作

2022-01-07 08:58:09 932

原创贝叶斯网络——实践

Iris_GaussianNB：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeaturesfrom sklearn.naive_bayes import GaussianNB, MultinomialNBfr

2020-09-06 22:50:50 299

原创机器学习——贝叶斯网络

贝叶斯网络贝叶斯网络（Bayesian Networks）也被称为信念网络（Belif Networks）或者因果网络（Causal Networks），是描述数据变量之间依赖关系的一种图形模式，是一种用来进行推理的模型。贝叶斯网络为人们提供了一种方便的框架结构来表示因果关系，这使得不确定性推理变得在逻辑上更为清晰、可理解性强。对于贝叶斯网络，我们可以用两种方法来看待它：首先贝叶斯网表达了各个节点间的条件独立关系，我们可以直观的从贝叶斯网当中得出属性间的条件独立以及依赖关系；另外可以认为贝叶斯网用另一种

2020-08-26 22:23:52 1178

原创机器学习——EM算法实践

EM在这里插入代码片import numpy as npfrom scipy.stats import multivariate_normalfrom sklearn.mixture import GaussianMixturefrom mpl_toolkits.mplot3d import Axes3Dimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.metrics.pairwise import pa

2020-08-20 10:27:51 433

原创机器学习——EM算法

EM算法：EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation Maximization Algorithm）。EM算法受到缺失思想影响，最初是为了解决数据缺失情况下的参数估计问题，其算法基础和收敛有效性等问题在Dempster，Laird和Rubin三人于1977年所做的文章Maximum likelihood from incomplete data via the EM algorithm中

2020-08-14 22:06:29 670

原创机器学习——聚类

kMeans:import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlib.colorsfrom sklearn.cluster import KMeansdef expand(a, b): d = (b - a) * 0.1 return a-d, b+dif __name__ == "__main__": N = 400

2020-08-11 15:11:07 304

原创机器学习——聚类算法

聚类的概念：机器学习里面的聚类是无监督的学习问题，它的目标是为了感知样本间的相似度进行类别归纳。它可以用于潜在类别的预测以及数据压缩上去。潜在类别预测，比如说可以基于通过某些常听的音乐而将用户进行不同的分类。数据压缩则是指将样本进行归类后，就可以用比较少的的One-hot向量来代替原来的特别长的向量。聚类，既可以作为一个单独的过程，也可以作为其他机器学习任务的预处理模块。其实，在深度学习里面就十分流行这种先给样本聚类压缩数据，然后把在压缩后的特征向量丢到网络去训练，这其实就是深度学习里面的“表示学习

2020-07-31 22:13:27 781

原创机器学习——SVM实践

SVM基本应用：import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score# 'sepal length', 'sepal widt

2020-07-26 22:28:51 245

原创机器学习——SVM算法

支持向量机（SVM）定义：1、线性可分支持向量机：给定线性可分的训练数据集，通过（硬）间隔最大化或者等价的求解相应的凸二次规划问题学习得到的分离超平面为：w∗x+b=0w∗x+b=0以及相应的分类决策函数： f(x)=sign(w∗x)+bf(x)=sign(w∗x)+b。2、线性支持向量机给定线性不可分的训练数据集，通过软件间隔最大化或者等价的求解相应的凸二次规划问题学习得到的分离超平面为：w∗x+b=0w∗x+b=0以及相应的分类决策函数： f(x)=sign(w∗x)+bf(x)=sign

2020-07-23 22:45:36 415

原创机器学习——XGBoost实践

XGBoost：XGBoost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以很好地解决于工业界规模的问题。基本原理实践：import xg

2020-07-19 11:51:41 303

原创机器学习——提升算法理论

提升算法的概念：提升算法：提升算法推导：提升算法步骤：

2020-07-17 20:59:20 270

原创决策树和随机森林——推导与实践

决策树：条件熵：

2020-07-12 20:29:37 330

原创线性回归——推导及实践

使用极大似然估计解释最小二乘似然函数推导过程：高斯的对数似然与最小二乘：θ的解析式的求解过程：最小二乘意义下的参数最优解：加入λ扰动后：线性回归的复杂度惩罚因子：正则项与防止过拟合：梯度下降算法：梯度方向推导：批量梯度下降算法：随机梯度下降算法：...

2020-07-08 16:55:05 433

原创机器学习——数据清洗，特征选择

数据清洗的方法：设置阈值去掉异常值随机森林预测去掉点的数值加进去onehot编码（不适用于决策树和随机森林）：先将一个属性分成几个类别然后再将样本的数据变成矩阵01，1表示其所在类别会导致特征数增多数据清洗代码实现import numpy as npimport pandas as pdfrom fuzzywuzzy import fuzzfrom fuzzywuzzy import processdef enum_row(row): print row['state']

2020-07-05 10:27:53 540

原创逻辑回归原理及代码实例

逻辑回归基本原理：（1）找一个合适的预测函数（Andrew Ng的公开课中称为hypothesis），一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。（2）构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J

2020-07-01 22:18:52 785

原创线性回归算法及案例

线性回归：寻找⼀一种能预测的趋势回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。案例：from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegressionfrom sklearn.model_s

2020-06-28 22:50:06 874

原创决策树

决策树决策树是机器学习中常用的一种算法，它即可用于解决分类问题，也可用于解决回归问题，在这篇博客我们只介绍分类决策树。决策树顾名思义是一种树形结构，而我们的任务就是想办法构建出这样一颗树用它来进行分类。def decision(): """ 决策树对泰坦尼克号进行预测生死 :return: None """ # 获取数据 titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main

2020-06-24 22:28:51 212

原创机器学习基础算法——朴素贝叶斯算法

朴素贝叶斯算法：朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化，即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。算法原理：朴素贝叶斯分类（NBC）是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基

2020-06-12 22:18:19 500

原创机器学习基础算法——K-近邻算法

K-近邻算法思路：在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。优点：简单，易于理解，易于实现，无需估计参数，无需训练。缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大；必须指定K值，K值选择不当则分类精度不能保证。使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试。实例代码：import pandas as pdfrom sklearn.datasets import load_iris, fetch_20

2020-06-10 16:59:40 285

原创机器学习基础算法2

数据降维：def var(): """ 特征选择-删除低方差的特征 :return: None """ var = VarianceThreshold(threshold=1.0) data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data) return Nonedef pca(): """ 主成分分析进行特征降维

2020-06-09 18:20:40 142

原创机器学习基础算法

字典，文本特征数据抽取，数据归一化，标准化以及数据缺失项处理。from sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputerfrom sklearn.feature_

2020-06-07 21:50:55 166

空空如也

空空如也