2018年12月_鹏鹏哥哥的小红帽

12月 11月 10月 09月

原创 python3.7报错：AttributeError: 'str' object has no attribute 'decode'

def getMovie(line): return b' '.join(line.split()[1:])movieList = []with open('data/movie_ids.txt', 'rb') as f: for line in f: movieList.append(getMovie(line.strip()))从python2中重建代码...

2018-12-22 00:42:40 7087

原创 [Python嗯~机器学习]---用python3做一个简单的异常检测模型

异常检测In [1]:import numpy as np评估指标，准确率和召回率（F1 score）In [2]:def F1(predictions, y): # 预测值和真实标签值 TP = np.sum((predictions == 1) & (y == 1)...

2018-12-22 00:08:10 2389 1

原创 [Python嗯~机器学习]---构建一个大规模的机器学习系统

大规模机器学习我们基本讨论了应用中的机器学习算法，但是生产中要跟大数据结合，对于大数据我们如何处理呢？前面我们讨论过，在机器学习中并不是谁有最好的算法谁就能赢，而是谁拥有更多的数据谁才会赢。我们在前面的博客称之为”算法虽好，数据决胜！”所以，如果我们能有办法获得大量数据的话，我们就希望能够利用这样大量的数据来训练我们的模型。不过，当数据集变得很大的时候就会遇到计算量的问题。比如，我们...

2018-12-21 21:26:52 1163

原创 [Python嗯~机器学习]---机器学习推荐系统简述

推荐系统这个博客我们讨论一个有用的算法，也就是大家感兴趣的能变现的算法----推荐算法。现在，当我们浏览网页的时候，服务器都会记录用户的行为，来分析我们的喜好并且推荐相关的信息。举个例子吧，电影评分~~~假设，我们运营了一家视频点播网站，就类似爱奇艺、优酷。在这种网站里面，用户会对电影、电视剧等的进行评分，一般都是1星到 5 星的。觉得好看就给五星，觉得不好看就给 1 星之类的。而...

2018-12-21 08:01:26 619

原创 [Python嗯~机器学习]---机器学习中的异常监测简述

异常监测前面博客中我们学习了聚类算法，就是用机器学习方法把不同的无标签样本分成几类。那么，我们还是用一个问题引出我们的讨论，如果我们的样本基本就是一类，很难会出现不同一类，这时候怎么分？说白了，对大量的数据进行训练，如果有一个新的样本跟训练样本聚一类就是正常，偏离训练集就是异常。如何定义异常监测？假设有一些数据，从x1到xm，我们通常假定这m个样本都是正常的，然后我们需要一个算法来判断...

2018-12-21 06:26:48 952

原创 [Python嗯~机器学习]---用python3实现主成分分析法（PCA算法）

PCA算法降维In [1]:from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.linear_model import Logisti...

2018-12-20 23:21:25 3149 1

转载奇异值分解（SVD）简述

奇异值分解SVD思维导图奇异值分解是什么奇异值分解（Singular Value Decomposition，SVD），是一种提取信息的方法。比如有一份记录用户关于餐馆观点的数据，要对其进行处理分析，提取背后的因素，这个因素可能是餐馆的类别，烹饪配料等，然后利用这些因素估计人们对没有去过的餐馆的看法，从而进行推荐，提取这些信息的方法就叫奇异值分解法。奇异值分解的作用是什么奇...

2018-12-20 00:30:31 2068

转载协方差矩阵简述

协方差矩阵均值描述的是样本集合中的平衡点。标准差描述的是样本集合中各个样本点到均值之间距离的平均值，即数据的分散程度。方差是标准差的平方。方差是协方差的一种特殊情况，即当两个变量是相同的情况。引出协方差前面的标准差，方差一般用来描述一维的，现实中我们遇到的大多是多维的，这时候虽然可以每一维独立计算出方差，但信息单一，这就引出协方差。简单地说：协方差就是这样一种用来度量两个随...

2018-12-20 00:10:27 3865

原创 [Python嗯~机器学习]---降维和PCA算法

降维和PCA算法现在我们考虑一个问题，现实生活中的一个事务的特征是非常多的，有可能是上百维或者更高的，有的特征与特征之间也有一定的联系，庞大的特征和样本集就使得我们的训练需要大量的时间，这时候我们就想有没有办法加快我们的训练减少时间呢？引入我们今天的概念----降维，进行数据压缩，使用更少的计算机内存或磁盘，加快学习算法。如何进行降维？数据压缩：对于一个事物的特征我们取出两个...

2018-12-19 22:18:14 1234

原创 [Python嗯~机器学习]---用python3来说明k-means(K均值)算法

k-means算法In [1]:import numpy as np读数据集In [2]:def loadDataSet(filename): """ 读取数据集 Args: filename: 文件名 Returns: dataMat: 数据样本矩阵 """ dataMat = [] ...

2018-12-18 00:19:49 728

原创 [Python嗯~机器学习]---无监督学习和聚类-k-means算法

无监督学习前面的博客我们讨论的都是有监督学习，也就是数据集中有样本的输出结果，如，预测值或者是否关系。那么，假如数据没有标注，那么我们怎么对数据进行分类？有没有一种算法可以自动的把我们的数据分成不同的数据集合？ k-means算法（k均值）简述：没有标注的样本数据集，用肉眼我们大概可以分成两类，所以我们也希望能聚成两个类。我们随机初始化两个点，这两个点我们称他们为类簇中心点。...

2018-12-17 23:37:33 1073

原创 [Python嗯~机器学习]---用python3和鸢尾花数据集来描述SVM

线性核函数In [1]:import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm # 直接用sklearn中的包from sklearn.datasets import make_blobs # 生成样本点数据,生成聚类的数据In [2]:...

2018-12-17 21:33:10 7145

原创 [Python嗯~机器学习]---简述支持向量机(SVM)和核函数

简述支持向量机这一个博客我们还是讨论监督学习和分类问题-----支持向量机 / SVM还是用问题引出我们的内容。我们在逻辑回归中通过对概率值的惩罚来判断决策边界，那么我我们在SVM中怎么分类？在线性不可分的高维度情况下，我们对样本进行分类？这样就引出了我们支持向量机中的最重要的两个内容1、顾名思义的支持向量（离决策边界最近的点）~~~2、引入核函数，使线性不可分的内容线性可分...

2018-12-15 08:04:05 4465

原创 [Python嗯~机器学习]---用python3来做机器学习模型诊断

诊断机器学习我们用代码来回顾一下上一个博客中关于参数选择的问题In [1]:import numpy as npimport matplotlib.pyplot as plt # 画图from scipy.io import loadmat # 用scipy中的模块加载matl...

2018-12-13 22:20:49 616

原创 [Python嗯~机器学习]---设计一个简单的机器学习系统和准确率、召回率

设计一个简单的机器学习系统首先，快速实现的最简单的算法，比如花一天时间来快速地搭建出一个可以运行的简单系统，即使效果不好也无所谓。之后，我们通过画出学习曲线来观察训练集误差和交叉验证集误差，确定是否有高bias问题，或者高variance问题，或者什么别的问题。这样，我们就可以决定是否需要获取更多的训练样本，或者加入更多的特征，或者其他手段来提高算法的效果。误差分析，意思是在我们构建...

2018-12-13 20:48:30 1283

原创 [Python嗯~机器学习]---如何调试一个简单的机器学习算法？

调试一个机器学习算法在机器学习中，我们学习了最简单的模型以及构建方式，那么怎么调试来使得我们的算法更有效呢？从房价预测讲起~~~上图中我们可以看出代价函数可以分成两部分。我们暂时这么想，前一部分表示模型拟合能力（取决于高阶项次数），后一项表示摩西复杂度（通过 λ 来表示对模型参数的惩罚能力）。如何来调整这些参数呢？这时候要引出过拟合和欠拟合的问题。上图中，如果只有房价和面积...

2018-12-13 19:26:01 651

原创从python2中移植代码到python3中报错：TypeError: 'range' object doesn't support item deletion

python3中range不返回数组对象，而是返回range对象所以不能像python2中那样直接返回就是数组解决：python3中返回一个range函数产生的数组对象：从我的神经网络模型中截取一段代码a = list(range(layerNum)) # 要的仅仅是定长list结构，内部元素在下面for循环被重新赋值...

2018-12-13 00:47:45 305

原创 [Python嗯~机器学习]---用python3来阐述神经网络

神经网络首先，我们实现一个神经网络有6个步骤1、构建一个神经网络，然后随机初始化权值，通常我们把权值初始化为很小的值，接近于0，但不是0 。 2、执行前向传播算法，也就是对于该神经网络的任意一个输入xi，计算出对应的hx值，也就是一个输出值y的向量。 3、通过代码计算出代价函数 jΘ 。 4、执行反向传播算法，来计算出这些偏导数，或者叫偏微分项，也就是 jΘ 关于参数 Θ 的偏微分。...

2018-12-13 00:43:34 319

原创 [Python嗯~机器学习]---神经网络的原理和BP算法

神经网络的原理和BP算法上一篇博客中，我们简述了神经网络，中间我们假设有一个合适的 θ 矩阵，来完成我们的前向传播，那么我们如何来选择 θ 呢？开始我们的讨论内容，构造一个神经网络，使用反向传播求解 θ 。神经网络模型：说明：L ：神经网络层数Sl：第 l 层神经元个数K ：输出的多分类情况中的分类数这时候，要求一个好的神经网络就要对所有的边权 θ 进行优化，这时候我们想到...

2018-12-12 17:44:41 1045

原创 [Python嗯~机器学习]---简述神经网络

神经网络前面的博客我们讨论了分类问题的时候用的是逻辑回归，那么为什么能用逻辑回归了还要研究神经网络？首先，我们回想一下，我们用逻辑回归对于一个非线性的分类问题是不是要构造一个有很多个多项式项和高阶项的分类边界？如果这个样本有很多个特征怎么办？是不是多项式项和高阶项就会难以想象的多？再次，如果我们用所有的多项式和高阶项拟合决策边界是不是会过拟合？要是人为删掉一些是不是会欠拟合？带...

2018-12-11 10:02:31 295

原创 [Python嗯~机器学习]---最大熵模型和多分类

最大熵模型和多分类熵可以看做是用来描述信息量的。最大熵模型属于运用最大熵原理的多分类模型。熵是随机变量不确定性的度量，不确定性越大，熵越大。给定一定条件的最大熵：在给定期望和方差的基础上，均匀分布的熵最大。带约束的极值问题，用拉格朗日函数来解决。最大熵模型给定约束条件的求极值问题，用拉格朗日函数函数求解。总结：最大熵模型和logistic回归：逻辑回归就是...

2018-12-08 10:35:12 1345 1

原创 [Python嗯~机器学习]---凸优化和拉格朗日函数

凸优化和拉格朗日函数对偶问题和拉格朗日函数：拉格朗日函数对于乘子是线性的或者放射的。对x属于域中的所有函数值取下界，就剩下了关于 λ 和 υ 的函数。拉格朗日函数值是小于我们假设函数最有解的。对于λ 和 υ 来说拉格朗日对偶函数是一个凹函数。重点：在优化问题求假设函数最小值的时候，原函数不是一个凸函数，这时候给它加两个项构造一个拉格朗日函数，取下确界获得拉格朗日对偶函...

2018-12-07 23:59:14 1743

原创 [Python嗯~机器学习]---一句话解释机器学习中的极大似然估计和最小二乘法

极大似然估计和最小二乘法用先验分布是高斯分布的噪声做一下问题假设我们给定了样本，用一个直线或平面或其他的数学形式描述，但是真实的点和模型的上的点总是有误差，我们把误差作为噪声，看做是一个符合高斯分布的一组误差。样本是独立的，我们的噪声也是独立的，所以就是独立同分布的一组数据。因为影响误差的是大量的相互影响的因素决定的，按照中心极限定理误差就是最正常状态的分布，就是正态分布，也叫高斯...

2018-12-07 23:12:02 400

原创 [Python嗯~机器学习]---用python实现逻辑回归

逻辑回归引入我们的模块显示中文In [1]:import numpy as npfrom matplotlib import pyplot as plt # import matplotlib.pyplot as pltimport matplotlibmatplotlib.rcParams['font.sans-serif'] = ['Sim...

2018-12-07 20:34:42 473

原创 fig,ax = plt.subplots()与fig = plt.figure()和ax = fig.add_subplot(1,1,1)

fig,ax = plt.subplots()就是fig = plt.figure()ax = fig.add_subplot(1,2,1)fig, ax = plt.subplots(1,2,1)，中有三个参数，分别表示在一个大的画图空间fig中，参数1和2分别代表子图的行数和列数，也就是我们现在生成了1x2两个图像。返回的结果就是，fig画图空间和子图ax的array坐标系列表。...

2018-12-07 20:13:05 17970 1

转载 numpy.asarray()函数

np.asarray(a, dtype=None, order=None)参数a:可以是，列表, 列表的元组, 元组, 元组的元组, 元组的列表，多维数组参数dtype=None, order=None这两个都是可选参数dtype：数据类型，默认的是自己从输入的数据自动获得。order：有"C"和"F"两个选项,分别代表，行优先和列优先，在计算机内存中的存储元素的顺序。例如：将列...

2018-12-07 20:02:39 29368 1

转载 [Python嗯~机器学习]---L1正则化和L2正则化

正则化解决过拟合问题正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。数学表达式：式中、为训练样本和相应标签，为权重系数向量；为目标函数，即为惩罚项，可理解为模型“规模”的某种度量；参数控制控制正则化强弱。不同的函数对权重...

2018-12-06 22:33:51 6943

原创 [Python嗯~机器学习]---过拟合的解决思路和正则化

过拟合问题前面我们在博客中讨论了线性回归和逻辑回归，这两种算法都是为了通过大量数据训练之后得到一个假设函数模型来预测我们未来添加的样本。这时候就会出现一个问题，我们的假设函数有的时候太逼近真实值中的每一个点，几乎完美的拟合了训练集所有的数据点，那么预测一个没有出现过的数据样本就可能产生一个很大误差，（训练集上误差很低，测试集上误差很高）这种情况下就是很好的拟合了数据，但是具有很低...

2018-12-06 20:34:30 1591

原创 [Python嗯~机器学习]---多分类问题

多分类现实生活中的分类不只有二分类，比如一封邮件，要分成广告邮件、工作邮件、家庭邮件等。。。天气预报有雨、雪、晴、阴等各种分类。这时候，我们可以看出多分类就需要下图右侧这种多个决策边界。这时候，可以把要得到的一类看做一种类，其他的看做另一类，这时候我们有一个类就构造出专门判断某一类的分类器~~~，有很多的假设函数分类器。第一个类的假设函数判断给的测试样本属于第一个分类的概率，依次其他...

2018-12-06 17:22:18 1917 1

原创 [Python嗯~机器学习]---逻辑回归和代价函数的简述

逻辑回归和代价函数前面的博客中，我们提到决策边界的时候是假设我们有了合适的 θ，现在我们就讨论一下如何来获得合适的 θ。这时候我们想到的就是用一个代价函数来描述真实值和预测值之间的差异。但是跟线性回归不同的是，在逻辑回归中，输出值 y 只有两个值，0/1 。所以，代价函数跟线性回归应该也不相同。线性回归中，我们的代价函数的思想是均方误差~~~，在逻辑回归中，如果我们把假设函数的sigmo...

2018-12-06 17:04:44 1891 1

原创 [Python嗯~机器学习]---分类问题和决策边界的简述

分类前面的博客我们说机器学习分为有监督学习和无监督学习，其中有监督学习又分为回归问题和分类问题。现在让我们一起讨论分类问题。像这种结果输出为是否类的问题我们就叫做分类问题~~~分类有二分类和多分类，首先我们讨论二分类：二分类：目标输出值为二值，即是、否还是从吴恩达的课件截图~~~还是用肿瘤患者诊断的案例说，如上图，我们如何开发一个新的算法来拟合这个结果呢？首先，我们想...

2018-12-06 07:22:55 3659

原创 [Python嗯~机器学习]---用python写一个多元线性回归

多元线性回归In [1]:import numpy as npimport matplotlib.pyplot as plt显示中文In [2]:import matplotlibmatplotlib.rcParams['font.sans-serif'] = ['SimHei'] matplotlib.rcParams['font.family']='sans-...

2018-12-05 22:48:11 1414 1

原创 [Python嗯~机器学习]---拥有多个特征的多元线性回归

多元线性回归上一篇博客中我们讨论了一个特征变量的线性回归，还是用南京夫子庙房价的例子来说，我们预测房价仅仅使用面积是不够的，比如房龄、朝向、几室几厅、厕所数量等都是房价的影响因素，也就是可以作为标记房价的特征~~~ 为了标记特征和样本，我们规定，n 表示特征数，x上标 i 表示第 i 个样本，而 x 上标 i 下标 j 则表示第 i 个样本的第j个特征。...

2018-12-05 18:59:59 6674 1

原创 [Python嗯~机器学习]---用python来说明线性回归和梯度下降

用python来做线性回归首先，在基本的机器学习思路的基础上我们先研究有监督学习有监督学习学习中分为回归和分类我们先研究回归问题In [1]:import numpy as npimport matplotlib.pyplot as plt使matplotlib能显示中文In [2]:import matplotlibmatplotlib.rcParams['...

2018-12-05 07:45:15 1168

原创 [Python嗯~机器学习]---用Andrew Ng的图片来简述机器学习中的线性代数

矩阵和向量虽然线性代数有很强的理论性，但是我们做机器学习的研究只需要了解基本的矩阵和向量运算就可以了。下面用解图的方式来跟大家讨论下线性代数。什么是矩阵？矩阵就是一系列数字按照一定的格式组成的集合的数据结构，由行和列来确定矩阵中某一个元素的位置。什么是向量？向量只有一列，也就是说每一行对应一个数据，就可以用 i 来表述不同的行 Yi 对应不同的行值。上标表示是第...

2018-12-04 19:41:24 155

原创 [Python嗯~机器学习]---从机器学习的基本想法和梯度下降开始讲起

机器学习的开始机器学习的基本想法是不是 --> 在大量数据的基础上 --> 通过数据的某些特征，运用相关的算法 --> 得到了一个描述一系列数据的数学函数 --> 使用这一个函数对未来的数据进行预测和分析？在机器学习的过程中，我们在接触了很多数据之后会发现有这么几个问题： 1、有的数据集给了输入特征、同时给...

2018-12-04 08:15:43 192

原创 [Python嗯~机器学习]---pandas数据分析基础

pandaspandas是在numpy基础上做的，用来分析数据的python模块pandas具有两个重要的数据结构：series：序列，用来存储一维数据 dataframe：数据框，用来存储2维数据举例In [4]:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotl...

2018-12-04 00:29:10 471

原创 [Python嗯~机器学习]---用numpy做矩阵运算

基础numpy的数据对象--同类型的多维数组用tuple来索引数组类--ndarray跟普通python中的array完全不同 ndarray.ndim：数组axes的数目 ndarray.shape：数组的形状，其中，len(ndarray.shape)==ndarray.ndim ndarray.size：数组中所有元素的个数 ndarray.dtype：数组中元素类型对...

2018-12-03 22:34:53 1226

原创 python爬虫主要用的两个模块

request：主要用来发送http请求传递URL参数、读取相应内容、定制请求头部、post请求、响应状态码、重定向和历史、超时 beautifulsoup：主要用来做xml解析处理 ...

2018-12-02 01:09:06 1149

原创 python处理大日志文件

# coding=utf-8import sysimport timeclass Tail(): def __init__(self,file_name,callback=sys.stdout.write): self.file_name = file_name self.callback = callback def follow(sel...

2018-12-02 00:34:14 2407

mysql8.0.19数据库驱动jar包，亲测有效.rar

数据bai库驱动是不同数据库开发商du（比如oracle mysql等）为了某一种开发语zhi言环境（比如java）能够实现统一的数dao据库调用而开发的一个程序，他的作用相当于一个翻译人员，将Java语言中对数据库的调用语言通过这个翻译翻译成各个种类的数据库自己的数据库语言，当然这个翻译（数据库驱动）是由各个开发商针对统一的接口自定义开发的

2020-08-15

自行制作420p的yuv测试视频，用于开发流媒体播放器测试使用。YUV，是一种颜色编码方法。常使用在各个视频处理组件中。 YUV在对照片或视频编码时，考虑到人类的感知能力，允许降低色度的带宽。 YUV是编译true-color颜色空间（color space）的种类，Y'UV, YUV, YCbCr，YPbPr等专有名词都可以称为YUV，彼此有重叠。“Y”表示明亮度（Luminance或Luma），也就是灰阶值，“U”和“V”表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。

2020-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mysql8.0.19数据库驱动jar包，亲测有效.rar

自行制作，亲测可用，yuv测试视频，420p

空空如也