机器学习
lxslx
萌新程序员
展开
-
Apriori算法学习笔记
#coding=utf-8 from numpy import * def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]] ''' 创建候选项集列表 ''' def createC1(dataSet): C1=[] for transaction in dataSet: for item i转载 2017-06-28 15:48:12 · 557 阅读 · 2 评论 -
spark机器学习--推荐系统(一)(python)
#-*-coding:utf-8 from pyspark import SparkContext from pyspark.mllib.recommendation import ALS,Rating #数据格式 用户id,影片id,星级,时间戳 sc=SparkContext("local[2]","second spark app") #读取数据 rawData=sc.textFi原创 2017-07-23 16:07:52 · 680 阅读 · 0 评论 -
kMeans算法学习笔记(一)
#coding=utf-8 from numpy import * #数据集的读取 def loadDataSet(fileName): dataMat=[] fr=open(fileName) for line in fr.readlines(): currentLine=line.strip().split('\t') fltLine=转载 2017-06-28 09:56:32 · 545 阅读 · 0 评论 -
回归算法学习笔记(二)局部加权线性回归
#coding=utf-8 from numpy import * def loadDataSet(fileName): numFeat=len(open(fileName).readline().split('\t'))-1 dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines():转载 2017-06-27 10:14:27 · 489 阅读 · 0 评论 -
回归算法学习笔记(一)用线性回归线找到最佳拟合直线
#coding=utf-8 from numpy import * def loadDataSet(fileName): numFeat=len(open(fileName).readline().split('\t'))-1 dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines():转载 2017-06-26 20:50:58 · 3377 阅读 · 0 评论 -
adaBoost算法学习笔记
本文参考自《机器学习实战》 其中adaboostTrainDS()函数的返回值要修改为aggClassEst.T,不然ROC曲线会画不出来 #coding=utf-8 from numpy import * '''单层决策树算法''' def loadSimpData(): dataMat=matrix([[1.0,2.1],[2.0,1.1],[1.3,1.0],[1.0转载 2017-06-26 15:53:20 · 734 阅读 · 0 评论 -
logistic回归算法学习笔记-从疝气症预测病马死亡率
#coding=utf-8 from numpy import * #数据集的获取 def loadDataSet(): dataMat=[];labelMat=[] fr = open('testSet.txt') for line in fr.readlines(): lineArr=line.strip().split() dataMa转载 2017-06-25 11:19:03 · 501 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(三)显示地域相关的用词
#coding=utf-8 import feedparser import bayes import bayes_email from numpy import * #计算出现频率最高三十个单词 def calMostFreq(vocabList,fullText) : import operator freqDict={} for token in vocabList转载 2017-06-24 21:11:04 · 242 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(二)使用算法进行交叉验证
import bayes from numpy import * def bagOfWords2VecMN(vocabList,inputSet): returnVec=0*len(vocabList) for word in inputSet: if word in vocabList: returnVec[vocabList.inde转载 2017-06-24 19:33:02 · 1717 阅读 · 0 评论 -
朴素贝叶斯算法学习笔记(一)
#coding=utf-8 from numpy import * ''' 准备数据:从文本中构建词向量 ''' #数据集的读取 def loadDataSet(): postingList=[['my','dog','has','flea','problems','help','please'],\ ['maybe','not','take','him'转载 2017-06-24 18:52:00 · 277 阅读 · 0 评论 -
决策树算法学习笔记(三)-预测隐形眼镜类型
#coding=utf-8 import matplotlib.pyplot as plt #定义文本框和箭头格式 decisionNode=dict(boxstyle="sawtooth",fc="0.8") leafNode = dict(boxstyle="round4",fc="0.8") arrow_args=dict(arrowstyle=") def getNumLeafs(my转载 2017-06-24 10:07:28 · 707 阅读 · 0 评论 -
决策树算法学习笔记(二)
# -*- coding: UTF-8 -*- from math import log from numpy import * import matplotlib.pyplot as plt def calcShannonEnt(dataSet): numEntries=len(dataSet)#统计数据集的数量 labelCounts={}#创建一个数据字典 for转载 2017-06-23 20:49:59 · 270 阅读 · 0 评论 -
决策树算法学习笔记(一)
香农熵的计算 # -*- coding: UTF-8 -*- from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)#统计数据集的数量 labelCounts={}#创建一个数据字典 for featVec in dataSet: currentLabel转载 2017-06-22 19:32:11 · 278 阅读 · 0 评论 -
KNN算法学习笔记二
def file2matrix(filename): fr=open(filename)#打开文件 arrayOfLines=fr.readlines()#读取每一行 numberOfLines=len(arrayOfLines)#统计行数 returnMat=zeros((numberOfLines,3))#转换成矩阵 classLabelVe转载 2017-06-22 15:06:36 · 301 阅读 · 0 评论 -
KNN算法学习笔记(一)
from numpy import * import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels group,labels=createDataSet() de转载 2017-06-22 11:08:48 · 674 阅读 · 0 评论 -
spark机器学习构建回归模型
from pyspark import SparkContext sc=SparkContext("local[4]","first spark app") raw_data=sc.textFile("E:\sparkLearning\Bike-Sharing-Dataset\hour.csv") records=raw_data.map(lambda x:x.split(",")) num_转载 2017-07-27 10:56:40 · 483 阅读 · 0 评论