sklearn
陈陈的糖罐子
一个人工智能的菜鸟
展开
-
决策树的熵原理
什么是决策树?决策树的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了如下对话:熵这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的无序程度。而在信息学里面,熵是对不确定性的度量。在1948年,香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。筛选账号是否是真实账号执行:...原创 2021-10-28 17:33:06 · 328 阅读 · 0 评论 -
sklearn中数据拆分
导入包生成数据train_test_split拆分kFold拆分sKFold拆分小结:全部代码:import numpy as npimport pandas as pdfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_split# cv int 6 数据分成6份from sklearn.model_selection i原创 2021-10-28 15:44:59 · 433 阅读 · 0 评论 -
KNN癌症诊断
原创 2021-10-27 21:40:09 · 110 阅读 · 0 评论 -
KNN参数cross_val_score调参
什么是交叉式验证?这样所有的数据都进行了验证,所有的数据也都进行了训练,训练了五次也测试了五次,将这五次得到的数据求一个平均值,这样的数据更有说服力原创 2021-10-27 17:58:57 · 637 阅读 · 0 评论 -
KNN鸢尾花分类
可以发现黄色和绿色分的不太开,可以更换切片方式使用后两个明显分得更开,实验效果应该会更好,但因为官网使用前两个,所以我们仍旧使用前两个还有另一种处理测试数据的方法(ravel)关于这个函数,还有个更直观的例子用的是c = y_由系统自动根据y_来调配颜色,其实也可以指定颜色可以根据自己喜好更改颜色除了使用scatter来画图。还可以使用countourf来画图跟上面相比,它耗费的时间会相对短一点儿(画轮廓面跟散点图比起来,当然是轮廓面更快一点)全部代码:impor...原创 2021-10-27 17:33:13 · 178 阅读 · 0 评论 -
KNN手写数字的识别
原创 2021-10-27 15:14:08 · 60 阅读 · 0 评论 -
KNN鸢尾花分类
找到一张鸢尾花的照片,复制图片地址输入感叹号、中括号、小括号,然后小括号里面地址放进去就可将图片执行出来或者鸢尾花因为自然环境的不同,所以类别可以细分X = iris['data']y = iris['target']#150代表150个样本,4代表着4个属性:花萼长、宽;花瓣长、宽X.shape#将数据划分,一分为二:一部分用于训练,另一部分用于测试#将顺序打乱index = np.arange(150)indexnp.random.shuffle(index).原创 2021-10-25 21:56:52 · 984 阅读 · 0 评论 -
KNN算法入门
K近邻算法:nearest neighbors classification数据原创 2021-10-25 16:08:01 · 66 阅读 · 0 评论 -
sklearn框架结构
pip install sklearn新建一个文件夹在这个文件底下再建六个文件原创 2021-10-25 15:41:29 · 241 阅读 · 0 评论 -
幸福指数与GDP线性拟合
结果为bool值import matplotlibimport matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport sklearn# Load the dataoecd_bli = pd.read_csv("BLI.csv", thousands=',') #导入幸福指数文件,thousand是指若出现1000以上的数据去掉数字中的逗号,只保留数字gdp_per_capita = pd.re...原创 2021-10-25 11:43:37 · 421 阅读 · 0 评论 -
sklearn模型选择之模型验证方法
模型验证(model validation)方法1、通过交叉验证计算得分2、对每个输入数据点产生交叉原创 2021-10-24 11:41:13 · 1014 阅读 · 0 评论 -
超参数优化方法
什么是超参数(hyper-parameters)?网格搜索穷举式超参数优化方法随机采样式超参数优化方法超参数空间的搜索技巧原创 2021-10-23 17:50:30 · 184 阅读 · 0 评论 -
sklearn模型选择与评估
数据集划分方法数据集划分方法:k折交叉验证这个方法充分利用了所有样本。但是计算比较繁琐,需要训练k次,测试k次。数据集划分法:留一法留一法与k折交叉比较留P法验证数据集划分方法:随机划分法...原创 2021-10-22 18:08:04 · 135 阅读 · 0 评论 -
sklearn数据集操作2
可在线下载(Downloadable)的数据集sklearn.datasets.fetch_20类新闻文本数据集:该数据集包含了关于20个话题(topic)的18000条新闻报道,这些数据被分为两个子集:训练集和测试集。20组新闻文本数据集API用法详解野外带标记人脸数据集:fetch_lfw_people()fetch_lfw_pairs()这是一个在互联网上收集的带标记的著名人物人脸集合,以Jpeg格式存储,官方网址:https//vis-www.cs.umass.e.原创 2021-10-22 11:52:54 · 540 阅读 · 0 评论 -
sklearn数据集操作1
numpy:基于python的数值计算包,用于存储操作多维数组scipy:基于numpy设计的用于科学计算和工程设计的开发包matplotlib:绘制二维图像scikit learn整体结构介绍分类:垃圾邮件检测、图像识别算法:支持向量机,最近邻,随机森林,集成方法……回归:药物反应,股票价格算法:支持向量机,核岭回归,lasso,弹性网……聚类:客户细分,分组实验输出算法:k均值,谱聚类,均值漂移维数约简:可视化,提高效率算法:PCA,特征选择,非负矩阵分解……模型选择:通.原创 2021-10-21 22:29:04 · 190 阅读 · 0 评论