机器学习
文章平均质量分 83
lee_沐
这个作者很懒,什么都没留下…
展开
-
KNN(一)
对机器学习实战这本书的KNN部分进行整理,代码分两部分,一部分是myKNN.py,包含了所需的函数,另一部分是myKNN_run.py,对所需函数进行调用。python版本为3.X。myKNN.py:# coding: utf-8# In[3]:from numpy import *import operatorimport osdef classify0(inX, d...原创 2019-02-14 19:09:09 · 669 阅读 · 0 评论 -
LightGBM(二):参数微调
一、有关leaf_wise tree的参数Parameters 含义 用法 num_leaves 这是控制树模型复杂度的主要参数,理论上,我们可以设置num_leaves = 2^(max_depth)来获得与深度树相同数量的叶子。然而,这种简单的转换在实践中并不好。原因是,对于固定数量的叶子,叶型树通常比深度型树要深得多。无约束深度会引起过拟合。因此,当尝试优化num_...原创 2019-09-26 16:47:44 · 637 阅读 · 0 评论 -
推荐系统(一)
目录1、基于内容的推荐算法:2、协同过滤算法(CF):3、基于知识的推荐算法推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。1、基于内容的推荐算法:是什么:根据用户以往评价过或访问过的的物品属性对用户的兴趣建模,也可以说用户喜欢和自己关注过的Item在内容上类似的Item。 比如你看了哈利波特I,基于内容的推荐算法发...转载 2019-09-15 21:56:14 · 232 阅读 · 0 评论 -
分类精度评价(二)
目录1、roc_curve:2、auc:3、roc_auc_score4、confusion_matrix1、roc_curve:sklearn.metrics.roc_curve(y_true,y_score, pos_label=None, sample_weight=None, drop_intermediate=True)注意:预测输入是概率值,而不是分类后...原创 2019-08-30 10:26:32 · 2083 阅读 · 0 评论 -
(一)房价预测
1from sklearn.datasets import load_bostonimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitimport numpy as npfrom sklearn.preprocessing import...原创 2019-07-30 23:06:33 · 385 阅读 · 0 评论 -
KNN(二):知识点总结
1、字典取数: sortedDistIndices = distances.argsort() #argsort()函数是将x中的元素从小到大排列,提取其对应的index(索引),然后输出到y #确定前k个点所在类别出现频率 classCount = {} for i in range(k): voteIlabel = labels[sorte...原创 2019-02-26 21:59:15 · 334 阅读 · 0 评论 -
逻辑回归学习笔记1
一、理论基础:1、是一分类算法(二分,也可解决多分类问题),一般作为分类的优先选择算法,建立base model; 2、Sigmod 函数: ...原创 2018-07-10 18:00:40 · 130 阅读 · 0 评论 -
逻辑回归学习笔记2(python)
一、读入数据;pdData = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted'])画图:positive = pdData[pdData['Admitted'] == 1]negative = pdData[pdData['Admitted'] == 0]fig, ax = plt.su...原创 2018-07-18 21:32:37 · 360 阅读 · 0 评论 -
决策树学习笔记1
一、衡量标准:1、熵:随机变量不确定性的度量2、信息增益:特征X使类Y的不确定性减少的程度举例计算:有如下数据,4个特征,1个结果(play)计算类Y(打不打球)的熵值:0.94;Outlook = sunny 的熵值计算: -2/5*log2(2/5)-3/5*log2(3/5) = 0.971;3、信息增益率:二、算法分类:1、ID3;...原创 2018-07-19 15:28:39 · 209 阅读 · 0 评论 -
决策树学习笔记2(Python)
一、导入数据1、库%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pd2、sklearn导入数据from sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_califor...原创 2018-07-21 10:34:55 · 388 阅读 · 0 评论 -
集成算法
目录一、集成学习(Ensemble learning)二、Boosting三、Bagging一、集成学习(Ensemble learning)定义:通过构建并结合多个学习器来完成学习任务,又称多分类器系统、基于委员会的学习等。基学习器:同质集成的个体学习器;组件学习器/个体学习器:异质个体组成;核心:生成“好而不同” 的个体学习器。根据个体学习器的生成方式...原创 2018-07-21 12:13:22 · 2458 阅读 · 0 评论 -
sklearn 的 Decision Trees
sklearn.tree的函数结构: 1、介绍:are a non-parametric supervised learning method used for clas...原创 2018-07-26 12:00:01 · 537 阅读 · 0 评论 -
贝叶斯算法(1)
一、什么是贝叶斯:作用:用于解决逆向概率问题:根据现象学习预测总体。什么是正向概率:假设袋子里面有N个白球,M个黑球,你把手伸进去摸一把,摸出黑球的概率是多大?什么是逆向概率:如果我们事先不知道袋子里黑球,白球的比例,而是闭着眼睛摸出一个(或多个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面黑白球的比例做出什么样的推测。为什么用贝叶斯:1、现实世界本身就是不确定...原创 2018-08-03 18:51:40 · 440 阅读 · 0 评论 -
sklearn的detasets模块
from sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housing()print(housing.DESCR)一、介绍对于不同类型的数据集,有三种不同类型的数据集接口。1、生成数据函数与svmlight loader共享同一规则。返...原创 2018-08-20 18:20:27 · 1178 阅读 · 0 评论 -
分类精度评价
1、混淆矩阵(以二分类为例) 标准集 验证集 真实的P样本(positive) 真实的N样本(Negtive) 预测的P样本 TP(预测的P是真的) FP(预测的P是假的) 预测的N样本 FN(预测的N是假的) TN(预测的N是真的) 现在开始解释各种真阳、假阴。举例:由医学引入机器学习;一个病人,长了个肿瘤,去医院...原创 2018-11-11 17:35:55 · 2028 阅读 · 0 评论 -
Linux命令技巧(一)
目录一、tail二、chmod三、wc 统计四、rename五、dos2unix一、tailinux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,tail会自己主动刷新,确保你看到最新的档案内容。tail命令语法tail [ -f ] [ -c Number...原创 2019-10-11 15:11:46 · 187 阅读 · 0 评论