[Python嗯~机器学习]---对于音乐推荐引擎的基本理解

音乐推荐引擎   数据集 百万歌曲数据库 百万歌曲数据量可以在https://labrosa.ee.columbia.edu/millionsong/ 上下载。原始的数据包含了多年间上百万首歌曲的量化音频特征。它实际上是The Echonest和LABRosa的一个合作项目。 这里我们不会...

2019-02-18 14:59:02

阅读数 27

评论数 0

[Python嗯~机器学习]---贝叶斯网络

贝叶斯网络 首先,我们再想一下,相对熵和互信息相对熵是表示两个随机分布之间的距离,也是最大期望算法(EM)的损失函数,是一个大于等于 0 的值。互信息是设两个随机变量  的联合分布为 ,边际分布分别为 ,互信息  是联合分布 与乘积分布 的相对熵。 概率公式:   具体应用例子:...

2019-02-04 18:47:51

阅读数 90

评论数 0

[Python嗯~机器学习]---对互信息的理解

互信息 通过上图可以看出,所谓互信息就是两个事件都有的信息量。 于是,在互信息定义的基础上使用jessen不等式,我们可以证明  是非负的,因此 ,这里我们给出  的详细推导: 上面其他性质的证明类似。   直观地说,如果把熵  看作一个随机变量不确定度的量度,那么  就是  没有涉及...

2019-01-25 11:18:22

阅读数 45

评论数 1

[Python嗯~机器学习]---对熵、条件熵、相对熵的补充

熵、条件熵、相对熵、交叉熵 熵 首先,我们可以理解熵是一个量化信息量的东西,用来度量信息的多少。一件事情的信息量和不确定性是有关系的,信息量越大就表示不确定性越大。举一个例子:中国运动员将在2020年东京奥运会赢得短跑冠军。这个例子中,因为大家都知道几乎是不可能的,所以就不需要去查阅和引入很多...

2019-01-25 10:47:44

阅读数 40

评论数 0

[Python嗯~机器学习]---sklearn中对于梯度提升树GBDT和随机森林RF的参数调优

GBDT参数调优 框架参数 n_estimators: 弱学习器的最大迭代次数,或者说最大的弱学习器的个数。 learning_rate: 每个弱学习器的权重缩减系数ν,ν的取值范围为0<ν≤1。 subsample: 子采样,取值为(0,1]。 init: 即初始化...

2019-01-23 14:02:50

阅读数 40

评论数 0

关于sklearn中GridsearchCV从sklearn.grid_search中移除的问题

在sklearn2.0中,使用网格搜索(gridsearch)寻找最优参数模型, 模块加载从原来的from sklearn.grid_search import GridsearchCV 改为了  from  sklearn.model_selection import  Gridsearch...

2019-01-23 11:34:19

阅读数 29

评论数 0

2.7转3时skearn_GridSearchCV遇到,Parameter values for parameter (n_estimators) need to be a sequence

在前面把range(1,51,1)强制list一些就可以解决了 param_test = {  'n_estimators':list(range(1, 51, 1)) } 因为 在py2.7中range默认是list类型,但是Python中range认为自己是range类型,所以把range类型...

2019-01-23 10:18:11

阅读数 23

评论数 0

jupyter notebook中启动虚拟环境中的Python内核报错ValueError: signal only works in main thread

学习TensorFlow时装的Python3.6而anaconda中的Python3.7 报错,ValueError: signal only works in main thread 不同包的版本冲突导致的 在TensorFlow环境中执行命令 pip install "...

2019-01-23 09:58:17

阅读数 37

评论数 1

[Python嗯~机器学习]---集成学习基础

集成学习 原文作者:刘建平Pinard 集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等。 基本思路 对于...

2019-01-22 16:03:44

阅读数 47

评论数 0

[Python嗯~机器学习]---对聚类算法的进阶补充

对聚类算法的进阶补充 聚类我们应该都知道它的用途,大体上的聚类我们的思路都是通过计算不同样本点的距离来进行分类。 入门算法:k-means算法 层次聚类: 密度聚类: 边界和噪声: 谱聚类: 拉普拉斯矩阵: 总结: 谱聚类(spectral clusterin...

2019-01-21 17:19:51

阅读数 26

评论数 0

[Python嗯~机器学习]---对决策树和随机森林的补充说明

决策树和随机森林补充 首先,我们从熵开始讲起~~~ 第一个公式说明:给定 X 的条件下 Y 的信息熵等于 X,Y 的联合熵减去 X 自己的熵。 建立决策树的三种算法: 信息增益就是先算出数据本身 D 的熵,然后减去某一个特征 A 下面的条件熵,得到的就算是信息增益,把所有的特征的条件熵都算出来...

2019-01-21 11:42:00

阅读数 47

评论数 0

[Python嗯~机器学习]---决策树和随机森林

决策树和随机森林 首先,明白两个概念:Bagging和Boosting。两者都是将现有的分类或者回归算法组合在一起,行程一个更强大的分类器的一种方法。Bagging(bootstrap aggregating):算法过程: 1、从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstrapi...

2019-01-16 21:27:49

阅读数 53

评论数 0

[Python嗯~机器学习]---用python3来分析共享单车投放量

共享单车投放量预测 数据集https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 字段信息 hour.csv和day.csv都有如下的字段,不过day.csv中不会有hr。 instant: 样本编号 dteday: 日期 ...

2019-01-15 17:17:22

阅读数 68

评论数 0

[Python嗯~机器学习]---用python3来分析和预测加州房价

加州房价分析和预测 步骤 1、分析工作内容 2、获得数据 3、分析和预处理数据 4、选择模型并训练 5、参数调优 6、描述我们最终方案 7、上线我们的系统 数据集的几个来源 1、加州大学欧文分校机器学习数据库 2、Kaggle数据库 3、亚马逊AWS开源数据库 等等。。。 我们用的数据...

2019-01-14 09:52:54

阅读数 200

评论数 0

[Python嗯~机器学习]---用python3来描述sklearn的基本使用

sklearn介绍 基于Python 实现了几乎所有主流机器学习算法 简单易用的API定义 2010年末首次开源 高度活跃 Python,Cython,Wrapper scikit-learn / sklearn 用sklearn数据集描述¶ In [1]: f...

2019-01-04 16:06:27

阅读数 64

评论数 1

[Python嗯~机器学习]---用python3来描述协同过滤

协同过滤 推荐系统 In [1]: import numpy as np from scipy.optimize import minimize import pandas as pd In [2]: def getRecommender(Y, R, params=None, n=...

2019-01-02 19:17:00

阅读数 655

评论数 3

python3中格式化输出时报错unsupported format string passed to bytes.__format__

示例代码: myRatings = np.mat(np.zeros((nm,1))) myRatings[0] = 4 myRatings[97] = 2 myRatings[6] = 3 myRatings[11] = 5 myRatings[53] = 4 myRatings[63] = ...

2019-01-02 17:39:38

阅读数 302

评论数 0

python3.7报错:AttributeError: 'str' object has no attribute 'decode'

def getMovie(line):     return b' '.join(line.split()[1:]) movieList = [] with open('data/movie_ids.txt', 'rb') as f:     for line in f:         movi...

2018-12-22 00:42:40

阅读数 50

评论数 0

[Python嗯~机器学习]---用python3做一个简单的异常检测模型

异常检测 In [1]: import numpy as np 评估指标,准确率和召回率(F1 score) In [2]: def F1(predictions, y): # 预测值和真实标签值...

2018-12-22 00:08:10

阅读数 73

评论数 0

[Python嗯~机器学习]---构建一个大规模的机器学习系统

大规模机器学习 我们基本讨论了应用中的机器学习算法,但是生产中要跟大数据结合,对于大数据我们如何处理呢? 前面我们讨论过,在机器学习中并不是谁有最好的算法谁就能赢,而是谁拥有更多的数据谁才会赢。我们在前面的博客 称之为”算法虽好,数据决胜!” 所以,如果我们能有办法获得大量数据的话,我们就希望能...

2018-12-21 21:26:52

阅读数 104

评论数 0

提示
确定要删除当前文章?
取消 删除