python
文章平均质量分 77
Java硬件工程师
中国科学技术大学毕业,原支付宝Java开发工程师,立志做一名资深全栈工程师
展开
-
无监督学习-K-means算法
1、 什么是无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb 需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是无监督学习的目标,之所以称之为无监督,是因为这是从无标签的数据开始学习的。2、 无监督学习包含算原创 2022-03-26 20:30:05 · 325 阅读 · 0 评论 -
分类算法-逻辑回归与二分类
逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。1、逻辑回归的应用场景广告点击率(广告是否点击)是否为垃圾邮件是否患病金融诈骗(是否是金融诈骗)虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器2、 逻辑回归的原理2.1 输入逻辑回归的输入就是一个线性回归的结果。2.2 激活函原创 2022-03-23 21:42:54 · 1947 阅读 · 0 评论 -
机器学习之线性回归的改进-岭回归
1、 带有L2正则化的线性回归-岭回归岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果1.1 APIsklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)具有l2正则化的线性回归alpha:正则化力度,也叫 λλ取值:0~1 1~10solver:会根据数据自动选择优化方法sag:如果数据集、特征都比较大,选择原创 2022-03-23 21:30:06 · 238 阅读 · 0 评论 -
机器学习之欠拟合与过拟合
问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。1、 什么是过拟合与欠拟合欠拟合过拟合分析第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。1.1 定义过拟合:一个假设在训练数据上能够获得比其他假设更原创 2022-03-23 21:23:45 · 234 阅读 · 0 评论 -
机器学习之线性回归
1、 线性回归的原理1.1 线性回归应用场景房价预测销售额度预测金融:贷款额度预测、利用线性回归以及系数分析因子1.2 什么是线性回归1.2.1定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归那么怎么理解呢?我们来看几个例子期末成绩:0.7×考试成绩+0.3×平时成绩房子价格 = 0.02×中心区域的原创 2022-03-20 21:55:00 · 1405 阅读 · 0 评论 -
集成学习方法之随机森林
1、 什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。2、 什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结果是False, 那么最终投票结果就是True...原创 2022-03-20 17:17:40 · 320 阅读 · 0 评论 -
分类算法之决策树
1、认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法怎么理解这句话?通过一个对话例子想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!2、决策树分类原理详解为了更好理解决策树具体怎么分类的,我们通过一个问题例子?问题:如何对这些客户进行分类预测?你是如何去划分?有可能你的划分是这样的那么我们怎么知道这些特征哪个更好放在最上面,那么决策树的真是划分是这样的2.1 原理信息熵、信息增益等原创 2022-03-19 22:17:29 · 173 阅读 · 0 评论 -
分类算法之朴素贝叶斯算法
1、 什么是朴素贝叶斯分类方法2、 概率基础2.1 概率(Probability)定义概率定义为一件事情发生的可能性扔出一个硬币,结果头像朝上某天是晴天P(X) : 取值在[0, 1]2.2 女神是否喜欢计算案例在讲这两个概率之前我们通过一个例子,来计算一些结果:问题如下:那么其中有些问题我们计算的结果不正确,或者不知道计算,我们有固定的公式去计算2.3 条件概率与联合概率联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)特性:P(A, B) = P原创 2022-03-19 21:45:49 · 335 阅读 · 0 评论 -
分类算法之K-近邻算法
问题:回忆分类问题的判定方法什么是K-近邻算法你的“邻居”来推断出你的类别1、K-近邻算法(KNN)1.1 定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法1.2 距离公式两个样本的距离可以通过如下公式计算,又叫欧式距离同时还有曼哈顿距离和闵可夫斯基距离2、电影类型分析假设我们有现在几部电影其中? 号电影不知道类别,如何去预测?我们可以利用K近邻算原创 2022-03-19 21:30:53 · 970 阅读 · 0 评论 -
sklearn转换器和估计器
1、转换器和估计器1.1 转换器想一下之前做的特征工程的步骤?1、实例化 (实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式fit_transformfittransform这几个方法之间的区别是什么呢?我们看以下代码就清楚了In [1]: from sklearn.preprocessing import StandardScalerI原创 2022-03-19 20:56:39 · 183 阅读 · 0 评论 -
特征工程之特征降维
1 降维降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlated feature)相对湿度与降雨量之间的相关等等正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大2 降维的两种方式特征选择主成分分析(可以理解一种特征提取的方式)3 什么是特征选择1 定义数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。原创 2022-03-13 21:31:19 · 809 阅读 · 1 评论 -
特征工程之特征预处理
什么是特征预处理?1 什么是特征预处理scikit-learn的解释provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.翻译过来:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程可以通过上面那张图原创 2022-03-13 21:13:23 · 115 阅读 · 0 评论 -
特征工程之特征提取
![什么是特征提取呢?1 特征提取1 将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值化是为了计算机更好的去理解数据字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习将介绍)2 特征提取APIsklearn.feature_extraction2 字典特征提取作用:对字典数据进行特征值化sklearn.feature_extraction.DictVectorizer(sparse=True,…)DictVectorizer.fit_trans原创 2022-03-13 20:59:26 · 3396 阅读 · 0 评论 -
特征工程与数据集
1 数据集1.1 可用数据集Kaggle网址:https://www.kaggle.com/datasetsUCI数据集网址: http://archive.ics.uci.edu/ml/scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets1 Scikit-learn工具介绍Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现Scikit-learn文档完善,原创 2022-03-13 20:38:24 · 206 阅读 · 0 评论 -
机器学习概述
1.人工智能概述1.1 机器学习与人工智能、深度学习机器学习和人工智能,深度学习的关系:机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来达特茅斯会议-人工智能的起点1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡(John McCarthy)马文·闵斯基(Marvin Minsky,人工智能与认知学专家)克劳德·香农(Claude Shannon,信息论的创始人)艾伦·纽厄尔(Allen Newell,计算机科学家)赫伯特·西蒙(He原创 2022-03-13 20:10:59 · 170 阅读 · 0 评论 -
2021-10-24
DataSourceimport networkx as nximport numpy as npclass DataSource(object): def __init__(self,filename,n): self.filename = filename self.n = n self.G ={} def getGraph(self): self.G = nx.Graph() H = nx.pat原创 2021-10-24 18:50:01 · 2556 阅读 · 0 评论 -
结点重要性与SIR模型基础代码
SIR模型# simulate the information diffusion under SI modelimport networkx as nximport numpy as npimport randomimport matplotlib .pyplot as pltmax_iter_num = 25g = nx.karate_club_graph()# init the graph with random edge weight and set the inactive s原创 2021-10-16 12:22:59 · 648 阅读 · 2 评论