机器学习
文章平均质量分 81
hhy518518
这个作者很懒,什么都没留下…
展开
-
读书笔记数据科学入门————Python快速入门
本章摘要快速熟悉Python的基本语法并将其用于数据分析之中其中python的设计原则:按照“明显”的方式编写代码完成工作。python模块化:python某些特征默认不加载,包含了语言的本身部分特征。导入方式:import re re是处理正则表达式和常量模块然后通过re前缀调用函数my_regex = re.compile("[0-9]+",re.I)用模块原创 2016-08-15 17:52:38 · 480 阅读 · 1 评论 -
Apriori算法实现关联分析
摘要:主要是讲解一些数据挖掘中频繁模式挖掘的Apriori算法原理应用实践当我们买东西的时候,我们会发现物品展示方式是不同,购物以后优惠券以及用户忠诚度也是不同的,但是这些来源都是大量数据的分析,为了从顾客身上获得尽可能多的利润,所以需要用各种技术来达到目的。通过查看哪些商品一起购物可以帮助商店了解客户的购买行为。这种从大规模数据集中寻找物品间的隐含关系被称为关联分析或者关联规原创 2017-01-22 14:55:56 · 3352 阅读 · 1 评论 -
XGBoost参数调优
摘要:转载:http://blog.csdn.net/han_xiaoyang/article/details/526653961. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型转载 2017-02-12 17:52:17 · 5923 阅读 · 1 评论 -
GBDT参数调优
摘要:此处主要是如何利用xgboost以及如何进行Xgboost调参,特征工程处理的比较简单。特征工程:City这个变量已经被我舍弃了,因为有太多种类了。DOB转为Age|DOB,舍弃了DOB创建了EMI_Loan_Submitted_Missing这个变量,当EMI_Loan_Submitted 变量值缺失时它的值为1,否则为0。然后舍弃了EMI_Loan_Submi原创 2017-02-10 21:51:43 · 21936 阅读 · 0 评论 -
FP-growth算法高效实现
摘要: 搜索引擎中,输入一个单词或者单词的一部分。搜索引擎就会自动补全查询的单词项。用户甚至实现都不知道搜索引擎推荐的东西是否存在。搜索引擎公司研究元需要查看互联网上的词找出经常出线一起的词对。它是基于Apriori算法,但是比它快。这里的任务是将数据集存储在一个特定的FP树结构中发现频繁项集或者频繁项对。过程简化如下:会两次扫描数据集1)构建FP树2)从FP树中挖掘频繁项集原创 2017-02-10 15:40:02 · 2005 阅读 · 0 评论 -
Logistic回归的实现
摘要: Logistic回归也称为对率线性回归,需要涉及到最优化算法。此回归应用十分广泛,对于回归的预测也是概率的值,既属于回归模型也属于分类模型。Logistic回归的基本过程收集数据准备数据:由于需要距离的计算所以需要为数值同时需要格式化分析数据:任意方法训练算法:找到最佳回归系数测试算法使用算法:根据输入转换成对应的结构化数据而如何进行最优系数的原创 2016-11-02 16:33:17 · 494 阅读 · 0 评论 -
kaggle简单框架总结
摘要:分析过程在ipython notebook笔记中。下面主要贴一下这道题的代码框架。#-*-coding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn import preprocessingfrom sklearn.ensemble原创 2017-02-05 21:36:24 · 2463 阅读 · 1 评论 -
支持向量机实现编码
文章摘要:对于非线性可分的复杂数据,我们在支持向量机的基础上可以引入核的概念来辅助,可以将数据转换成分类器易于理解的数据形式核函数 我们可以发现核函数的用处就是如图所示在低维不可分的数据映射到高维以后就可以划分了。这个过程是从一个特征空间映射到另外一个特征空间,就是通过核函数实现。我们能把核函数想象成一个包装器或者接口,它把数据从某个很难处理形式转换成比较容易处理的形式。原创 2016-11-17 19:44:24 · 1031 阅读 · 0 评论 -
树回归的实现
摘要:前面已经介绍过线性回归的方法,但是这些算法局限处就是需要拟合所有的样本点,当时据拥有众多特征时候,并且特征之间的关系十分复杂的时候。构建全局模型十分困难。许多生活问题也是非线性的。常见的解决的方法是将数据集切分许多容易建模的数据。复杂的局部性建模: 通过决策树可以进行分类,决策树不断将数据集切分小,直到所有目标变量完全相同或者数据不能再切分为止。这是一种贪心的算法,在原创 2016-12-31 16:48:56 · 361 阅读 · 0 评论 -
SVM实战的理论基础
本章摘要:主要是理解支持向量机一些理论知识,本文采用序列最小化的实现方法实现SMO。同时如何使用核进行扩展道非线性上分类。基于最大间隔分割数据优点:泛化错误率低,计算开销不大缺点:参数调节和核函数的选择敏感,原始分类器不修改只能处理二类分类器分隔超平面当数据点在二维平面的时候,分隔超平面就是一个平面。显而易见,更高维的情况同样适用,比如数据集是1024那么就需要原创 2016-11-11 20:43:37 · 1207 阅读 · 0 评论 -
k-Means聚类算法实践
摘要: 前面所实现的机器学习算法,都是为了对一定目标的分类或者预测。但是如果目标变量事先不知道?那么问题就是转换成从数据X中能发现什么,或者构成X的最佳6个数据簇有哪些。或者X中哪3个特征最频繁出现。本章是将聚类算法在无监督学习中的应用。 聚类是一种无监督学习,它将相似的对象归为同一个簇中。它有点像自动全分类。聚类方法几乎可以应用到所有对象,簇内对象越相似,聚类的效果就越好。原创 2017-01-04 15:08:36 · 1136 阅读 · 0 评论 -
线性回归(2)缩减系数理解
摘要:当我们的数据特征比样本点还多怎么办,是否能够预测呢答案是否定。那么如何解决这个问题呢?科学家们引入了岭回归这个概念,岭回归其实就是如下:与前面的算法相比。这里通过预测误差的最小化得到系数首先抽取一部分用于训练I的系数,剩下的再来训练Wdef ridgeRegres(xMat,yMat,lam=0.2): xTx = xMat.T*xMat deno原创 2016-12-22 00:05:22 · 2008 阅读 · 0 评论 -
基本线性回归两种方法实现
摘要: 分类是对离散性数据进行预测,而回归则是对连续性数据进行预测找出最佳拟合直线假设输入数据为X,回归系数放在向量W中,预测结果为Y = W^T *X,那么如何找到W呢 平方误差def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t')) - 1 d原创 2016-12-08 11:41:12 · 761 阅读 · 0 评论 -
AdaBoost算法实现
摘要:机器学习处理问题,我们关注的是Boosting方法和代表分类器adaboost。我们已经实现过一些分类算法了,组合结果就是集成方法或者元算法。算法可以不同,数据集合不同部分分给不同分类器集成。训练算法:基于错误提升分类器性能 能够使用弱分类器和多个实例来构建强分类器?下面的实现是基于决策树构建的弱分类器。单层决策树是简单的决策树,仅仅基于单个特征来决策但是由于单层决策树可原创 2016-12-05 16:45:51 · 785 阅读 · 1 评论 -
朴素贝叶斯分类的实现
摘要:本文是基于朴素贝叶斯模型的来进行分类。是使用概率值进行分类的一种模型。贝叶斯决策理论优点:数据较少的情况,可以处理多分类问题缺点:输入数据的准备方式比较敏感适用数据类型:标称型类型那么如何确定数据类型呢?比如类别1 p1(x,y)的概率以及类别2 p2(x,y)的预测概率,找出其中大的作为分类的结果就是贝叶斯的核心思想贝叶斯公式:p(c|x)原创 2016-10-31 16:29:18 · 644 阅读 · 1 评论 -
k-近邻算法用于实际应用
摘要:本章所有内容数据均来自《机器学习实战》的数据,是对K近邻算法的应用以及熟练实例1改进约会网站的配对效果 题目描述:海伦喜欢在在线约会网站寻找适合自己的对象,但是她不是喜欢每一个人。她发现交往过三种类型的人: 1.不喜欢的人 2.魅力一般的人 3.极具魅力的人所以需要对网站的对象归入恰当的分类。她周一到周五喜欢魅力一般的人,而周末则更喜欢极具魅力的人。原创 2016-10-20 23:51:29 · 5250 阅读 · 1 评论 -
决策树的实现
文章摘要:本文是基于《机器学习实战》来编写的决策树的模型,决策树不是利用惰性算法进行求解的,而是需要学习到数据规则。决策树的构造 决策树 优点:计算复杂度不高,输出容易理解,中间值缺失不敏感,可以处理不相关数据 缺点:过拟合适用数据类型:离散以及连续都行那么决策树构造过程每一次都是对特征进行划分,而如何进行划分就是看数据集上哪个特征在划分数据的时候起原创 2016-10-26 20:28:27 · 470 阅读 · 0 评论 -
k-近邻算法的基本实现
摘要:K近邻算法是一种自动判别测试数据类型的算法,它是基于数据集的特征来进行分类,并不需要计算出数据预测模型,属于惰性算法。算法介绍:简单来说就是将测试数据与不用类别之间向量距离进行计算来进行分类优点:精度高,异常值不敏感没有数据输入的假定缺点:计算复杂度高,空间复杂度高适用类型:数值型和标称型算法过程:存在一个样本的数据集合,同时数据集合带有标签。原创 2016-10-16 15:26:15 · 568 阅读 · 0 评论 -
Kaggle_news_stock简单文本特征处理
摘要:这个是https://www.kaggle.com/aaron7sun/stocknews上面的一道DJIA波动预测题,其实也是二分类问题也是个文本分类问题,特征是文本类型基本方法是:TF-IDF + SVM 是文本分类问题的基准线开始数据探索import pandas as pdimport numpy as npfrom sklearn.svm impor原创 2017-02-12 22:11:21 · 1849 阅读 · 0 评论