机器学习
lxslx
萌新程序员
展开
-
Apriori算法学习笔记
#coding=utf-8from numpy import *def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]'''创建候选项集列表'''def createC1(dataSet): C1=[] for transaction in dataSet: for item i转载 2017-06-28 15:48:12 · 567 阅读 · 2 评论 -
spark机器学习--推荐系统(一)(python)
#-*-coding:utf-8from pyspark import SparkContextfrom pyspark.mllib.recommendation import ALS,Rating#数据格式 用户id,影片id,星级,时间戳sc=SparkContext("local[2]","second spark app")#读取数据rawData=sc.textFi原创 2017-07-23 16:07:52 · 687 阅读 · 0 评论 -
kMeans算法学习笔记(一)
#coding=utf-8from numpy import *#数据集的读取def loadDataSet(fileName): dataMat=[] fr=open(fileName) for line in fr.readlines(): currentLine=line.strip().split('\t') fltLine=转载 2017-06-28 09:56:32 · 549 阅读 · 0 评论 -
回归算法学习笔记(二)局部加权线性回归
#coding=utf-8from numpy import *def loadDataSet(fileName): numFeat=len(open(fileName).readline().split('\t'))-1 dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines():转载 2017-06-27 10:14:27 · 504 阅读 · 0 评论 -
回归算法学习笔记(一)用线性回归线找到最佳拟合直线
#coding=utf-8from numpy import *def loadDataSet(fileName): numFeat=len(open(fileName).readline().split('\t'))-1 dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines():转载 2017-06-26 20:50:58 · 3388 阅读 · 0 评论 -
adaBoost算法学习笔记
本文参考自《机器学习实战》其中adaboostTrainDS()函数的返回值要修改为aggClassEst.T,不然ROC曲线会画不出来#coding=utf-8from numpy import *'''单层决策树算法'''def loadSimpData(): dataMat=matrix([[1.0,2.1],[2.0,1.1],[1.3,1.0],[1.0转载 2017-06-26 15:53:20 · 743 阅读 · 0 评论 -
logistic回归算法学习笔记-从疝气症预测病马死亡率
#coding=utf-8from numpy import *#数据集的获取def loadDataSet(): dataMat=[];labelMat=[] fr = open('testSet.txt') for line in fr.readlines(): lineArr=line.strip().split() dataMa转载 2017-06-25 11:19:03 · 509 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(三)显示地域相关的用词
#coding=utf-8import feedparserimport bayesimport bayes_emailfrom numpy import *#计算出现频率最高三十个单词def calMostFreq(vocabList,fullText) : import operator freqDict={} for token in vocabList转载 2017-06-24 21:11:04 · 250 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(二)使用算法进行交叉验证
import bayesfrom numpy import *def bagOfWords2VecMN(vocabList,inputSet): returnVec=0*len(vocabList) for word in inputSet: if word in vocabList: returnVec[vocabList.inde转载 2017-06-24 19:33:02 · 1723 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(一)
#coding=utf-8from numpy import *'''准备数据:从文本中构建词向量'''#数据集的读取def loadDataSet(): postingList=[['my','dog','has','flea','problems','help','please'],\ ['maybe','not','take','him'转载 2017-06-24 18:52:00 · 282 阅读 · 0 评论 -
决策树算法学习笔记(三)-预测隐形眼镜类型
#coding=utf-8import matplotlib.pyplot as plt#定义文本框和箭头格式decisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode = dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle=")def getNumLeafs(my转载 2017-06-24 10:07:28 · 714 阅读 · 0 评论 -
决策树算法学习笔记(二)
# -*- coding: UTF-8 -*-from math import logfrom numpy import *import matplotlib.pyplot as pltdef calcShannonEnt(dataSet): numEntries=len(dataSet)#统计数据集的数量 labelCounts={}#创建一个数据字典 for转载 2017-06-23 20:49:59 · 282 阅读 · 0 评论 -
决策树算法学习笔记(一)
香农熵的计算# -*- coding: UTF-8 -*-from math import logdef calcShannonEnt(dataSet): numEntries=len(dataSet)#统计数据集的数量 labelCounts={}#创建一个数据字典 for featVec in dataSet: currentLabel转载 2017-06-22 19:32:11 · 286 阅读 · 0 评论 -
KNN算法学习笔记二
def file2matrix(filename): fr=open(filename)#打开文件 arrayOfLines=fr.readlines()#读取每一行 numberOfLines=len(arrayOfLines)#统计行数 returnMat=zeros((numberOfLines,3))#转换成矩阵 classLabelVe转载 2017-06-22 15:06:36 · 307 阅读 · 0 评论 -
KNN算法学习笔记(一)
from numpy import *import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labelsgroup,labels=createDataSet()de转载 2017-06-22 11:08:48 · 679 阅读 · 0 评论 -
spark机器学习构建回归模型
from pyspark import SparkContextsc=SparkContext("local[4]","first spark app")raw_data=sc.textFile("E:\sparkLearning\Bike-Sharing-Dataset\hour.csv")records=raw_data.map(lambda x:x.split(","))num_转载 2017-07-27 10:56:40 · 490 阅读 · 0 评论