机器学习
文章平均质量分 55
韩韩的博客
在读学生。座右铭:愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。愿君安。
展开
-
Kaggle心脏病数据集为例学习机器学习的可解释性分析
最近在B站看视频的时候,偶然看到同济子豪兄发的关于机器学习可解释性的视频,因为之前学习机器学习也是学习机器学习的算法以及调库、调参,而模型的内部还是感觉是一个黑箱子。废话不多说:直接上代码。需要安装的工具包pip install numpy pandas matplotlib seaborn wheel pandas_profiling jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simplepip install graphviz p原创 2020-05-25 13:13:13 · 8210 阅读 · 4 评论 -
深度学习入门论文(必看)
自己在看的一些深度学习的入门的必读论文分享给大家。链接:链接提取码:ijub复制这段内容后打开百度网盘手机App,操作更方便哦原创 2020-02-06 14:00:31 · 2579 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯基础学习笔记
朴素贝叶斯简介及优缺点朴素贝叶斯是有监督学习算法中的一种,解决的是分类问题。决策树算法和KNN算法都是给出的是最优类别的分类的预测的结果,没有给出一个预测的估计值。“朴素”的意思是在整个分类过程中只做最原始、最简单的假设。贝叶斯是统计学中的一种方法。优点在数据较少的时候依然有效,可以处理多类别的问题算法简单易懂分类效果好缺点对于输入数据的准备方式较为敏感只能进行分类贝叶...原创 2020-02-03 16:57:33 · 223 阅读 · 0 评论 -
机器学习实战之决策树实战笔记
决策树的构建ID3算法构建决策树的算法有很多,这里使用ID3算法构建决策树。ID3算法的核心是在决策树的各个结点上对应信息增益准则选择特征,递归地构建决策树。方法如下:从根节点开始,对结点计算所有可能的特征的信息增益,然后将信息增益大的作为结点的特征,然后根据这个特征的不同取值来建立不同的子节点。然后使用递归方法进行选择新的特征作为新的结点,直到所有特征的信息增益都很小或者没有特征选择结...原创 2020-01-30 20:26:40 · 553 阅读 · 0 评论 -
json.dumps(),json.loads(),json.dump(),json.load()方法的区别(超级详细)
1. json.dumps() json.dump()是将字典类型转化成字符串类型。import jsondic = {'a':'1111','b':'2222','c':'3333','d':'4444'} st = json.dumps(dic)print("我是字典类型的", dic)print("我是字符串类型的",st)print(type(dic))print(ty...转载 2018-08-01 22:32:14 · 6334 阅读 · 0 评论 -
python绘图之均匀分布
import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsex = np.random.rand(10000)t = np.arange(len(x))# plt.plot(t, x...原创 2018-07-30 18:56:11 · 5821 阅读 · 1 评论 -
python入门之面向对象程序
# class Myclass:# i = 12345# def f(self):# return 'hello'# x = Myclass() # 实例化类# print('i的属性为',x.i)# print('f的函数', x.f())# __init__()方法# 当对象的创建为有初始状态的,类则需要定义__init__()方法(构造方...原创 2018-07-29 20:55:18 · 172 阅读 · 0 评论 -
机器学习之散点图简单绘制程序
import matplotlib.pyplot as pltimport numpy as npx = np.arange(1, 10)y = [2, 5, 6, 7, 8, 1, 9, 10, 3]y2 = xfig = plt.figure()ax1 = fig.add_subplot(111)cValue = x * 10ax1.scatter(x, y, c=cValue...原创 2018-07-29 20:53:01 · 1329 阅读 · 0 评论 -
机器学习之图像处理灰化程序
import numpy as npfrom PIL import Imageif __name__ == '__main__': image_file = '3.jpg' height = 100 img = Image.open(image_file) img_width, img_height = img.size width = 2 * hei...原创 2018-07-29 20:52:21 · 543 阅读 · 0 评论 -
机器学习之二元高斯分布图像绘制
import numpy as npfrom scipy import statsimport matplotlib as mplimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmif __name__ == '__main__': x1,...原创 2018-07-29 20:51:13 · 2134 阅读 · 0 评论 -
机器学习之损失函数图像绘制
import numpy as npimport mathimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falseplt.figure(figsize=(8, 5))x = np.linspace(start=-2...原创 2018-07-29 20:49:52 · 19064 阅读 · 0 评论 -
机器学习之房价预测程序
import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsex, y = [], []for sample in open('D:/MLData/prices.txt',"r"):#...原创 2018-07-29 20:48:00 · 1980 阅读 · 1 评论 -
机器学习之奇异值分解应用程序
import numpy as npimport osfrom PIL import Imageimport matplotlib.pyplot as pltimport matplotlib as mplfrom pprint import pprintdef restore1(sigma, u, v, K): # 奇异值、左特征向量、右特征向量 m = len(u)...原创 2018-07-29 20:47:10 · 453 阅读 · 0 评论 -
python 一篇文章搞懂写入文件
import osdef file(): with open("text.txt","w") as f: #打开text文件 赋给对象f f.write("who are you") #f调用write方法写入内容who are you with open('text.txt') as fp: st = fp.read() ...原创 2018-07-26 15:31:00 · 652 阅读 · 0 评论 -
numpy中的stack()
stack()函数 函数原型为:stack(arrays, axis=0),arrays可以传数组和列表。axis的含义我下面会讲解,我们先来看个例子,然后我会分析输出结果。import numpy as npa=[[1,2,3], [4,5,6]]print("列表a如下:")print(a)print("增加一维,新维度的下标为0")c=np.stack(a,...转载 2018-07-25 21:49:07 · 2043 阅读 · 0 评论 -
机器学习基石理论笔记1
本文为台湾大学林轩田老师的笔记#机器学习过程是一种由差变好的过程 例如股票的例子:我们将前十年的数据喂给电脑,然后要求电脑可以预测后后五年的股市情况。我们就说机器从数据中学到了东西。机器学习在哪些地方的应用 声音辨识,视觉辨识,快速决定,个人化的服务 机器学习:可授之以渔使用机器学习的三个关键问题有潜藏的模式(模型),有某些目标可以学习,以增进效能不知道模型是什么...原创 2018-07-07 17:18:03 · 226 阅读 · 0 评论 -
机器学习入门:库的导入和添加
库的导入以math库为例import mathmath.sin(pi)math.exp(2)为库起一个别名,简化代码import math as mm.sin(x)导入特定的库 上文中导入的库是导入全部的math库from math import exp as ee(1)#只能计算e...原创 2018-07-07 15:24:08 · 516 阅读 · 0 评论 -
机器学习实战之决策树基础笔记
决策树的优缺点优点计算复杂度不高输出结果容易理解对中间值的缺失不敏感可以处理不相关特征数据缺点可能会产生过度匹配问题决策树原理《机器学习实战》书中讲了二十个问题的游戏的一个例子:就是参与游戏的一方脑子里想着某个事物。其他参与者可以向他提29个问题,但是答案只能用对错来回答。比如最简单的猜数游戏。我心里想一个数是7.然后A说你心里想的数比100小。然后我说正确。然后B说你心...原创 2020-01-29 21:44:15 · 356 阅读 · 0 评论 -
机器学习之k近邻算法笔记(knn)
k近邻算法就是采用测量不同特征值之间的距离方法进行分类。k近邻算法的优缺点及使用范围优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k近邻基本工作原理存在一个样本数据集合,也就是训练样本训练集,并且样本训练集中每个都存在标签,就是我们知道样本集中每一个数据和所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中...原创 2020-01-28 18:06:31 · 541 阅读 · 0 评论 -
机器学习中如何选择合适的算法
算法分类首先,机器学习大的算法分为监督学习用途的算法和无监督学习用途的算法两大类。而监督学习的算法有k-近邻算法、朴素贝叶斯算法、支持向量机算法、决策树算法、线性回归算法、局部加权线性回归算法、Ridge回归算法、Lasso最小回归系数估计算法。而无监督学习算法有K-均值、DBSCAN、最大期望算法、Parzen窗设计等等。算法目的选择实际可以使用的算法,要考虑一下两个方面。一是使用这个算法...原创 2020-01-27 11:10:33 · 1094 阅读 · 1 评论 -
Sklearn 机器学习之线性回归简单案例
例如,你想知道钱是否能让人快乐,你从 OECD 网站下载了 Better Life Index 指数数据,还 从 IMF 下载了人均 GDP 数据。表 1-1 展示了摘要。用一些国家的数据进行绘图:由图可以看出,生活满意度是随着人均GDP的增长呈现线性提高的。那么就可以建立简单的线性回归模型,在这些数据中我们可以抽取出一个属性:人均GDP.由此可以建立生活满意度关于GDP的线性函数。...原创 2019-07-23 20:39:06 · 1498 阅读 · 0 评论 -
机器学习实战之机器学习的主要挑战
机器学习的主要挑战主要可分为错误的数据和错误的算法。错误的数据主要是指训练数据量不足:训练数据太少训练数据没有代表性:训练数据没有代表性,训练的模型也就没有不可准确预测。数据质量低:数据中错误、异常值、噪声太多...原创 2019-07-24 16:26:44 · 888 阅读 · 0 评论 -
机器学习实战之交叉验证
训练集分成互补的子集,每个模型用不同的子集进行训练,再用剩下的自己验证。一旦确定模型类型和超参数,最终的模型使用这些超参数和全部的训练集进行训练,用测试集得到推广误差率。...原创 2019-07-24 16:53:55 · 375 阅读 · 0 评论 -
机器学习实战之多变量房价预测详解
欢迎来到机器学习房地产公司! 你的第一个任务是利用加州普查数据, 建立一个加州房价模型。 这个数据包含每个街区组的人口、 收入中位数、 房价中位数等指标。任务:你的模型要利用这个数据进行学习, 然后根据其它指标, 预测任何街区的的房价中位数。项目设计:这是一个监督学习任务,因为我们的数据是有标签的,然后我们要预测一个值,所以是一个回归问题。同时,我们有多个变量,所以这是一个多变量回归问题...原创 2019-07-25 15:25:16 · 2807 阅读 · 0 评论 -
机器学习实战之数据清洗
数据清洗接上一篇博客:机器学习实战之多变量房价预测详解继续学习:大多数机器学习算法不能处理有缺失数据的特征,所以我们要处理特征缺失的问题。前面的数据中属性total_bedrooms有一些缺失值。常见的解决方法有:去掉对应的街区。去掉整个属性。进行赋值(0,平均值,中位数)。使用dDataFrame的dropna() drop() fillna()方法对应如上三种操作。housi...原创 2019-07-25 19:42:00 · 794 阅读 · 0 评论 -
山东科技大学济南校区+集成学习和随机森林
集成学习和随机森林:from sklearn.ensemble import RandomForestClassifier>>> from sklearn.ensemble import VotingClassifier>>> from sklearn.linear_model import LogisticRegression>>> ...原创 2019-07-27 21:58:24 · 443 阅读 · 0 评论 -
机器学习常见分类
分类监督学习:归类,预测,有标签重要的监督学习的算法:逻辑回归:用来分类,生成归属哪一类的可能性的值。K近邻算法线性回归支持向量机决策树和随机森林神经网络非监督学习训练的数据没有标签,系统在没有老师的条件下进行学习。重要算法:聚类,可视化和降维,关联性规则学习降维目的:简化数据同时不能失去大部分信息。做法之一是合并若干相关的特征。例如:汽车的里程数和车龄高度相关,那么就...原创 2019-07-23 17:31:00 · 238 阅读 · 0 评论