机器学习
文章平均质量分 77
SDUTyangkun
这个作者很懒,什么都没留下…
展开
-
多元线性回归
from numpy import genfromtxt#用来读取数据转化为矩阵from sklearn import linear_model#含有回归的模型dataPath = r"C:\Users\QAQ\Desktop\Delivery_Dummy.csv"#路径 deliveryData = genfromtxt(dataPath, delimiter = ',')#讲csv文件原创 2017-06-18 17:42:29 · 447 阅读 · 0 评论 -
Numpy 数组装置和轴对换和通用函数:快速的元素级数组函数
# #3、数组装置和轴对换arr = np.arange(15).reshape((3,5))print arrprint "数组转置的两种方法:"print arr.transpose()print arr.T #在矩阵计算时,经常需要用到该操作,如利用np.dot()计算x^Txprint "x^Tx内积"print np.dot(arr.T,arr)#--4、通用函数原创 2017-07-27 14:41:46 · 998 阅读 · 0 评论 -
Numpy 将条件逻辑表述为数组运算
#5将条件逻辑表述为数组运算--------------xarr = np.arange(1.1,1.6,0.1)yarr = np.arange(2.1,2.6,0.1)cond = np.array([True, False, True,True,False])print xarrprint yarrprint cond#假设我们要根据cond的值选取xarr和yarr的值:当c原创 2017-07-27 15:23:00 · 816 阅读 · 0 评论 -
Numpy 数学和统计方法
#6数学和统计方法------------------------------arr = np.random.randn(5,4)print arrprint np.mean(arr)#求平均值 mean和sum这类可以接受axis参数(0,1)#用于统计该轴上的统计值,最终结果是一个一维数组print np.mean(arr,axis = 0)#一列的均值print np.mean(原创 2017-07-27 16:17:17 · 833 阅读 · 0 评论 -
Numpy 用于布尔型数组的方法 唯一化以及其他集合逻辑
#7用于布尔型数组的方法-----------------------arr = np.random.randn(10)print arrprint (arr>0).sum()#正值的数量#any,和all方法对布尔型数组非常有用 any测试bool数组里面是否有true#all测试是否都是true#所有非零元素都可以当做truebools = np.array([True,Fals原创 2017-07-27 17:15:53 · 890 阅读 · 0 评论 -
SVD算法
为什么这么难……这么难……#encoding:utf-8import numpy as npfrom numpy import *from numpy import linalg as ladef loadExData(): return[[0, 0, 0, 2, 2], [0, 0, 0, 3, 3], [0, 0, 0, 1, 1],原创 2017-08-19 21:50:20 · 1124 阅读 · 0 评论 -
简单线性回归
1. 介绍:回归(regression) Y变量为连续数值型(continuous numerical variable) 如:房价,人数,降雨量 分类(Classification): Y变量为类别型(categorical variable) 如:颜色类别,电脑品牌,有无信誉原创 2017-06-18 17:37:42 · 864 阅读 · 0 评论 -
决策树
1基础概念1什么是决策树2 信息的定义3熵香农熵4信息的增益2决策树特点优点缺点适用数据类型3机器实战代码4lensestxt数据1、基础概念1.1什么是决策树 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分原创 2017-08-06 19:33:51 · 437 阅读 · 0 评论 -
机器学习之决策树 进行时......
今天学了关于决策树的相关知识点,以下是对学习过程中遇到问题所做的笔记。1.关于csv csv文件格式是一种通用的电子表格和数据库导入导出格式。 读取csv文件 import csv file = open('C:\Users\QAQ\Desktop\p.csv','rb')reader = csv.reade原创 2017-06-05 21:23:46 · 356 阅读 · 0 评论 -
朴素贝叶斯
今天看了朴素贝叶斯,在网上看到了篇朴素贝叶斯的文章感觉特别好,在此摘抄 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)2、机器实战代码,垃圾邮件分类注:1、 p(ci|w)=p(w|ci)p(ci)p(w) p(ci|w) =\dfrac{p(w|ci)p(ci)}{p(w)} 我们将使用上述公式,对每个计算该值,然后比较这两个概率值大小。原创 2017-08-06 20:48:57 · 328 阅读 · 0 评论 -
Apriori算法
Apriori本文基于机器学习实战这本书记录一下学习路程,就当是笔记了,我是机器实战的搬运工,各位大爷不喜勿喷~~~ 首先引入一个实例 交易号码 商品 0 豆奶,莴苣 1 莴苣,尿布,葡萄酒,甜菜 2 豆奶,尿布,葡萄酒,橙汁 3 莴苣,豆奶,尿布,葡萄酒1、基本概念1.1关联分析从大规模数据集中寻找物品间的隐含关系被称作关联分析(association a原创 2017-08-14 08:28:24 · 1937 阅读 · 1 评论 -
Numpy 花式索引
#花式索引 #它是指利用整数数组进行索引,先初始化一个8*4的矩阵#-----2.1arr = np.empty((8,4))# print arrfor i in range(8): arr[i] = iprint arr#为了以特定顺序选取行子集,只需传入一个用于指定顺序的列表或ndarray即可print arr[[4,3,0,6]]# print arr[np.原创 2017-07-27 09:16:12 · 4775 阅读 · 1 评论 -
树回归
先贴个敲得机器实战的代码,基础知识整理后在更新#encoding:utf-8import numpy as npfrom numpy import *#导入文件def loadDataSet(fileName) : dataMat = [] fr = open(fileName) for line in fr.readlines() : curLin原创 2017-08-08 21:30:51 · 386 阅读 · 0 评论 -
逻辑回归
Logistic回归简单分析 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据 我们都知道逻辑回归是和Sigmod函数一起的,为了实现逻辑回归分类器,我们可以在每一个特征上都乘以一个回归系数,然后将所有的结果值相加,将总和代入S函数,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分人1类,小于0原创 2017-06-20 16:36:58 · 383 阅读 · 0 评论 -
关于numpy中Array乘法的记录
在机器学习中遇到的一点有关python的小问题a = np.array([[1,2,3],[4,5,6],[7,8,9]])b = np.array([1,2,3])print a*b print a+bprint b*aprint b+ac=np.dot(a, b)print cprint np.shape(c)d = np.dot(b, a)print dprint原创 2017-06-21 14:35:44 · 649 阅读 · 0 评论 -
局部加权线性回归
1.基本概念 欠拟合:由于样本数据过少过着其他因素,拟合模型在数据预报时会造成偏差。如图中的左和中为求出的回归方程,然而在x的取值和真实差别很大,这个情况叫做欠拟合。 过拟合:简单理解就是训练样本的得到的输出和期望输出基本一致,但是测试样本输出和测试样本的期望输出相差却很大 。 一般情况下: 对于特征集过小的情况,称之为欠拟合(underfitting) 对于特征集过大的情况,原创 2017-07-29 10:42:24 · 2462 阅读 · 0 评论 -
初步岭回归
岭回归1、机器学习实战 在机器学习实战中,是这么引入岭回归的: 如果特征比样本还多(n > m),也就是说输入的数据矩阵X不是满秩矩阵。非满秩矩阵在求逆时会出错( (XTX)−1(X^TX) ^{-1})为了解决这个问题统计学家引入了这么个概念。岭回归最先用来处理特征数多于样本情况,现在也用于在估计中加入偏差,从而得到更好的估计。这里引入λ来限制W之和,通过引入惩罚项,能减少不重要的原创 2017-08-01 22:08:35 · 536 阅读 · 0 评论 -
k_means 聚类算法
我在看看机器学习实战这本书在写感想吧 先把麦子学院学的 代码先粘上一发#! encoding:utf-8import numpy as npfrom scipy.cluster.hierarchy import centroidfrom bokeh.util.session_id import randomdef kmeans(X, k, maxIt):# X为矩原创 2017-07-24 15:26:30 · 852 阅读 · 0 评论 -
PCA算法
我发现我要是写博客真的是亏了这老哥的博客了……不说了,写的真的不错。链接在这原创 2017-08-16 21:40:31 · 1252 阅读 · 0 评论 -
FP_growth算法
FP_growth算法1Apriori与FP_growth的区别2FP_growth优缺点3构建FP树1构建过程12构建过程24从一颗FP树中挖掘频繁项集1从FP树中抽取频繁项集分为三个步骤2 条件模式基3创建条件FP树5python代码FP_growth算法本文基于机器学习实战这本书记录一下学习路程,就当是笔记了,我是机器实战的搬运工,各位大爷不喜勿喷~~~ 1、Aprior原创 2017-08-15 21:31:54 · 2790 阅读 · 0 评论 -
Numpy 布尔索引
import numpy as np#布尔型索引names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])dataSet= np.array([1,1,1,1,1,1,1])data = np.random.randn(7,4)#生成7行四列的正态分布的随机数print data# print names == 'Bo原创 2017-07-26 20:53:40 · 1576 阅读 · 0 评论 -
AdaBoost算法
由于本人也是小白一只,所以本文将基于机器学习实战或者互联网作此记录,如有侵权告知将删……1AdaBoost2AdaBoost优缺点3公式4伪代码5代码1、AdaBoostAdaboost算法是通过改变数据分布来实现的,他根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次得到的分类器最后进行融原创 2017-08-11 10:02:57 · 753 阅读 · 0 评论 -
scikit-learn数据预处理fit_transform()与transform()的区别(转)
二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)fit_transform(partData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该partData进行转换transform,从而实现数据的标准化、归一化等等。。根据对之前部分fit的整体指标,对剩余的数据(原创 2017-08-22 21:30:08 · 4031 阅读 · 1 评论