ML
又决定放弃
这个作者很懒,什么都没留下…
展开
-
softmax交叉熵的局限性
明确softmax交叉熵是干啥的:我们识别一个图片中的手写数字 ,比如7 ,经过训练我们得到一个预测值,使用onehot表示就是[ 0 , 0, 0 ,0,0,1,0,1, 0, 0] //第6个位置是1,代表预测是5这显然不准确如果我们现在使用softmax交叉熵去优化的话,就能实现如下效果:我们预测值里面的 1 ,会不断地接近第8个位置,也就是正确的值7 最终会成...原创 2020-02-03 08:04:38 · 297 阅读 · 0 评论 -
泰坦尼克-决策树实现
两个数据集, 你本地新建个 train.csv 和 test.csv, 下面的链接的内容粘贴进去就行了:train.csv:https://raw.githubusercontent.com/cystanford/Titanic_Data/master/train.csvtest.csv:https://raw.githubusercontent.com/cystanford/Titan...原创 2020-01-27 15:24:07 · 813 阅读 · 0 评论 -
KNN算法
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表.人话就是:KNN算法用来解决, 如何判定某个点,归属于哪个集合中的问题。解决办法是:这个点和谁近, 就属于谁。 所谓K,就是找最近的K个点,这K个里面,谁多就听谁的。例子如下图,绿色圆...原创 2020-01-27 12:15:07 · 166 阅读 · 0 评论 -
用KNN算法对鸢尾花数据进行分类(代码)
过程分为五步:1. 获取数据2. 划分数据集3. 特征工程:标准化4. KNN算法估计器5. 模型评估(对比真实值和估计值 ; 计算准确率)#coding=UTF-8from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklear...原创 2020-01-26 22:01:05 · 2929 阅读 · 0 评论 -
机器学习中的降维
摘自维基百科在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为变量选择和特征提取两大方法。简单来说,如果你的数据集是由下面几个成分组成: 1.降雨量 2.湿度 3.房屋价格 4.健康指数我们显然可以判断,前两个数据具有明显的相关性,意思就是, 我们的原始数据就有比较大的冗余, 这对我们进行模型训练是无作用的,因此...原创 2020-01-24 10:49:05 · 830 阅读 · 0 评论 -
中问文本提取
-----承接上篇中文文本提取#coding=utf-8from sklearn.feature_extraction.text import TfidfVectorizerimport jiebadef cut_word(v): return " ".join(list(jieba.cut(v)))#尝试使用tf-idf算法思想进行文本特征提取def tf_c...原创 2020-01-23 20:20:23 · 129 阅读 · 0 评论 -
字典特征提取和文本特征抽取
什么叫字典特征提取?字典内容转化成计算机可以处理的数值比如现在有个字典: data = [ {"city":"北京", "tempeture":100, "age":11} , {"city":"上海", "tempeture":60,"age":12} , {"city":"深圳", "tempeture":20,"age":13} ]...原创 2020-01-23 16:00:57 · 630 阅读 · 0 评论 -
精确率和召回率
撰写时间: Wed Jan 22 18:30:41 2020问题描述:精确率和召回率的权衡问题求解:要回答这个问题首先要明确这两个概念,精确率是分类正确的正样本 / 判定为正样本的总数;召回率是分类正确的正样本 / 真正正样本的总数。Presion 和 Recall 是既矛盾又统一的两个指标,为了提高Presion,分类器需要保守一点,尽量在更有把握的时候才把样本归类到正样本,但此时往往会...转载 2020-01-22 18:33:20 · 332 阅读 · 0 评论