机器学习实践
xingkong1992
这个作者很懒,什么都没留下…
展开
-
机器学习系列二
数据在应用机器学习模型之前,所有的数据必须转换成表格形式。如下所示,这是最耗死,最费劲的部分。 转换成功后便可以将这些表格数据灌入机器学习模型。表格数据是在机器学习或数据挖掘中最常见的数据表示形式。我们有一个数据表,x轴表示样本数据,y轴表示标签。标签可以使单列或者多列,取决于问题的形式。我们会用X表示数据,y表示标签。标签的种类标签会定义你要解决的何种问题,有不同的问题类型。例如:单列,二翻译 2017-10-29 22:56:11 · 447 阅读 · 0 评论 -
机器学习案例之二 房价预测
房价预测案例检视源数据集import numpy as npimport pandas as pd读入数据一般来说index那一栏没有什么用,我们用来作为我们pandas dataframe的index。这样以后要是检索起来也很方便Kaggle上默认数据放在input文件夹下。train_df=pa.read_csv('../input/train.csv',index_col=0)tes翻译 2017-10-31 20:54:19 · 2769 阅读 · 1 评论 -
机器学习实践一
根据问题是否有标签将机器学习问题分为监督学习问题(有标签)和非监督学习问题(无标签)。 监督学习又可根据预测结果是否连续分为回归问题(预测值为连续的)和分类问题(预测值为离散的)。 常见的监督学习算法:线性回归,逻辑回归,KNN,决策树,SVM,朴素贝叶斯。 无监督学习算法:关联规则,聚类 半监督学习:一半有标签,一半无标签。 机器学习算法使用图谱 数据量少的话可以使用规则去学习,此时所原创 2017-10-24 13:30:18 · 1283 阅读 · 0 评论 -
机器学习实践之三排序和CTR预估问题
display import pandas as pd#初始化阶段train_filename="train_small.csv"test_filename="test.csv"submission_filename="submit.csv"training_set=pd.read_csv(train_filename)training_set.head(10)training_set.de翻译 2017-11-02 19:41:17 · 1452 阅读 · 0 评论 -
K-近邻算法
K-近邻算法优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型K-近邻算法的一般流程收集数据:可以使用任何方法准备数据:距离计算所需要的数值,最好是结构化的数据格式分析数据:可以使用任何方法训练方法:此步骤不适用于K-近邻算法测试算法:计算错误率使用算法:首先需要输入样本数据和结构化的输出结果,然后运行K-近邻算法判定输入数据原创 2017-11-30 21:54:48 · 233 阅读 · 0 评论 -
决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据缺点:可能会产生过度匹配问题适用数据类型:数值型和标称型决策树的一般流程收集数据:可以使用任何方法准备数据:树构造算法只适用于标称类型,因此数值型必须离散化分析数据:可以适用任何方法,构造树完成之后,我们应该检查图形是否符合预测训练算法:构造树的数据结构测试算法:使用经验树计算错误率使用算法原创 2017-12-04 08:17:43 · 153 阅读 · 0 评论