python机器学习项目实战
一个人的旅行qiu
我原因用我10年的生命换一个闪耀的人生
展开
-
机器学习之K-means聚类分析NBA球员案例
import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltnba = pd.read_csv("D:\\test\\machineLearning\\nba_2013.csv")print nba.head(3) player pos age bref_team_i原创 2017-03-18 11:43:37 · 7649 阅读 · 2 评论 -
机器学习项目实战之用户流失预警
from __future__ import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv("D:\\test\\machineLearning\\churn.csv")col_names = churn_df.columns.tolist()print "Column_names:"print col原创 2017-03-22 22:44:06 · 5724 阅读 · 7 评论 -
机器学习项目实战之贝叶斯垃圾邮件分类
#coding:utf-8'''Created on 2017年3月19日@author: qiujiahao'''import numpy as np#贝叶斯实质上也是一个二分类def loadDataSet():#数据格式 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],原创 2017-03-19 14:21:25 · 2546 阅读 · 3 评论 -
机器学习项目实战之贷款申请最大利润
import pandas as pdloans_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1)#数据清理过滤无用特征 half_count = len(loans_2007)/2loans_2007 = loans_2007.dropna(thresh=half_count,axis=1)loans_2007 = loans_2007.d原创 2017-03-21 22:07:36 · 2860 阅读 · 0 评论 -
机器学习项目实战:泰坦尼克号获救预测
import pandastitanic = pandas.read_csv("D:\\test\\titanic_train.csv")#进行简单的统计学分析print titanic.describe()#std代表方差,Age中存在缺失值 PassengerId Survived Pclass Age SibSp \count原创 2017-03-21 00:16:28 · 9042 阅读 · 8 评论 -
机器学习之贝叶斯拼写检查器
#coding:utf-8import re, collectionsdef words(text): return re.findall('[a-z]+', text.lower()) def train(features): #使用defaultdict的好处在于当访问一个不存在的键值的时候会调用入参函数,并将结果作为这个key的value model = collection原创 2017-03-19 22:00:50 · 624 阅读 · 0 评论 -
机器学习之递归神经网络RNN实现二进制加法
1.循环递归,并且当前的结果受前段时间的结果影响,不同样本间是有联系的 以下是反向传播时对权重进行调整的推倒公式 #coding:utf-8'''Created on 2017年3月18日#本项利用RNN递归神经网络实现二进制加法@author: qiujiahao'''import numpy as npimport copy#激活函数def sigmoid(x):原创 2017-03-18 23:43:13 · 1033 阅读 · 0 评论 -
机器学习之简单三层神经网络实现
import numpy as np#本项目实现简单神经网络模型#非线性函数#前向传播:直接返回sigmoid激活函数#反向传播:对sigmoid函数求倒数,即x*(1-x)def nonlin(x,deriv=False): if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))#输入样本x =原创 2017-03-18 19:24:23 · 2635 阅读 · 0 评论 -
七月机器学习项目实战之特征工程6城市自行车共享系统使用状况
特征工程小案例Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。本项目功能:数据清理,特征提取,标准化连续值特征,离散性数据实现one-hot编码 本项目数据及源码:https://github.com/qiu997018209/MachineLearning#先把数据读进来imp原创 2017-03-31 17:38:33 · 2865 阅读 · 0 评论