自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nicole的博客

记录机器学习中遇到的问题

  • 博客(70)
  • 资源 (12)
  • 收藏
  • 关注

原创 天池竞赛:金融风控-贷款违约预测

竞赛地址:https://tianchi.aliyun.com/competition/entrance/531830/information

2020-09-15 20:18:05 3199

原创 Can not connect to MYSQL server on 10060解决方式汇总

1、如果使用localhost可以连接上,用ip连接不上,可能是host 地址改变了,先检查host地址;使用ipconfig2、如果是localhost和ip都连接不上,可能是服务器没有启动;按以下步骤启动;

2020-05-18 14:17:42 2016

转载 卡方分布、卡方独立性检验和拟合性检验理论及其python实现

目录1. 卡方分布 1.1 简介 1.2 定义 1.3 卡方分布的密度函数 1.4 性质(后续填坑) 2. 卡方检验 2.1 简介 2.2 卡方独立性检验 2.4 卡方拟合性检验 2.5 卡方拟合性检验和独立性检验之间的关系  3 文献 正文如果你在寻找卡方分布是什么?如何实现卡方检验?那么请看这篇博客,将以通俗易懂的语言,全面的阐述卡方、卡...

2018-12-05 22:18:48 4514

转载 三、亚马逊产品定价其实就这么简单,一个公式解决

目录一、影响定价的因素二、了解行情,进行比价三、亚马逊商品的一般定价公式四、产品在不同阶段的定价方法五、定价的小诀窍六、价格调整策略海猫跨境作者:海猫跨境2016-11-24 16:33:51如果产品销量不好,很多卖家首先想到的是图片、listing是不是做的不够好,很少卖家会想想是不是自己的定价有问题,定价对销量的影响也是至关重要的,定价是一门高深的学问,如果...

2018-09-29 17:50:42 12305 1

转载 四、集成学习之bagging——Random Forest

[Machine Learning & Algorithm] 随机森林(Random Forest)目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容1 什么是随机森林?  作为新兴起的、高度灵活...

2018-09-27 18:01:07 1647

原创 三、集成学习方法——boosting和bagging

一、集成学习的基本概念1、集成学习的原理集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时候也称为多分类器系统(mult-classifer system)、基于委员会的学习(committee - based learning)等。集成学习的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对于单个学习器来说)。集成学...

2018-09-18 23:07:01 685

转载 PYTHON-基础-时间日期处理小结

目录涉及对象1. datetime2. timestamp3. time tuple4. string5. datedatetime基本操作1. 获取当前datetime2. 获取当天date3. 获取明天/前N天4. 获取当天开始和结束时间(00:00:00 23:59:59)5. 获取两个datetime的时间差6. 获取本周/本月/上月最后...

2018-09-18 13:57:34 695

转载 二、分类——分类预测的评价指标(附python代码)

目录一、常用的分类算法的评价指标1.混淆矩阵2.评价指标如何画ROC曲线?一、常用的分类算法的评价指标(1)Precision(2)Recall(3)F-score(4)Accuracy(5)ROC(6)AUC1.混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的...

2018-09-14 21:20:15 17965 3

转载 八、回归——XGBoost 与 Boosted Tree

作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局  兄邀请写这篇文章。作为一个非常有...

2018-09-14 09:55:00 835

转载 六、Sklearn-CrossValidation交叉验证

交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型的...

2018-09-14 09:33:29 537

原创 四、如何测试模型在真实数据上的表现

1.对照实验。在实验中设置对照组,为了与即将进行实验的组进行对比,减少实验中一些不确定因素的影响。将数据分成两部分,实验组和对照组,检验实验组合对照组在统计意义上是否有明显差异2.观察性实验。在实际研究中,研究者可能无办法去控制一些影响因素,例如:(1)随机对照实验违反伦理道德。(2)研究者无法控制因素的发生与否。(3)在实际应用中可能由于控制因素的成本太大,也可能会采取这种方...

2018-09-03 14:50:27 3237

原创 路由和视图函数基本概念

《FlaskWeb开发:基于python的Web应用开发应用》笔记一一、路由和视图函数1.什么叫路由?    客户端(例如Web浏览器)把请求发送给Web服务器,Web服务器再把请求发送给Flask程序实例。程序实例需要知道对每个URL请求运行哪些代码,所以保存了一个URL到python函数的映射关系。处理URL和函数之间关系的程序称为路由。      在Flask 程序中定义路由...

2018-08-12 16:27:38 8244 1

转载 三、机器学习算法的优点和缺点

数据人网 • 2018-06-01 23:37 • 人工智能 • 阅读 282 从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。奥卡姆的剃刀原理:使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。根据我自己的经验,只有神经网络和梯度增强决策树(GBDT)正在工业中广泛使用。 我目睹Logistic回归...

2018-07-30 18:34:07 826

转载 二、算法太多挑花眼?教你如何选择正确的机器学习算法

张乐 • 2018-07-05 09:09 • 人工智能 • 阅读 1543机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢? 作者 Rajat Harlalka 编译  Geek AI、张倩 本文转自机器之心机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不...

2018-07-30 18:23:50 405

翻译 二、完美定价零件Deux - 减少销售额带来的更多收益

这是Jarrod Drysdale的客座文章- 一位网页设计师和引导程序员,他最近为他的电子书打破了五位数的销售额,该电子书教导了自助式设计原则和策略。他曾在创业公司,金融公司,电影制片厂和消费者品牌的代理商和自由职业者工作过。在这里,Jarrod分析了为什么他的价值定价策略以比上周发布的定价策略更少的销售额赚取更多的钱。Sacha  上周在这个博客上写了他的定价策略,并分享他在48小时内获得...

2018-07-25 23:28:58 367

翻译 一、完美的定价如何让我在2天内获得1500个销量

        这是Sacha Greif的客座文章,   他是一位设计师和企业家,他最近出售了数千本自行出版的电子书,展示了  如何逐步设计用户界面。他曾与多家创业公司合作,也是Folyo的创始人,这项服务可以帮助公司找到经过审查的自由设计师。在这里,Sacha解释了他如何设定电子书的定价 - 这是其成功的关键一步。        我父亲最近责怪我买了面包店的便宜的、劣质的棕色面包。由于我们...

2018-07-25 23:20:06 320

转载 一、聚类——机器学习:Mean Shift聚类算法

本文由ChardLau原创,转载请添加原文链接https://www.chardlau.com/mean-shift/今天的文章介绍如何利用Mean Shift算法的基本形式对数据进行聚类操作。而有关Mean Shift算法加入核函数计算漂移向量部分的内容将不在本文讲述范围内。实际上除了聚类,Mean Shift算法还能用于计算机视觉等场合,有关该算法的理论知识请参考这篇文章。Mean S...

2018-07-24 14:59:09 2239

翻译 十、假设检验

Edward Teller, the famous Hungarian-American physicist, once quoted:“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that...

2018-07-18 20:19:12 578

翻译 十、模型自变量选择方法

在本系列的最后一篇文章中,我们讨论了多元线性回归模型。费尔南多创建了一个模型,根据五个输入参数估算汽车价格。费尔南多的确获得了一个比较好的模型,然而,费尔南多想要获得最好的输入变量集本文将详细介绍模型选择方法一、概念模型选择方法的想法很直观。它回答了以下问题:如何为最佳模型选择正确的输入变量?如何定义最佳模型?最优模型是使数据与评估指标的最佳值相匹配的模型。...

2018-07-18 19:51:22 14250 2

翻译 九、机器学习一些基本概念

一、数据科学项目的各个阶段1.定义业务问题      Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 这句话是定义业务问题的关键。  需要开发和构建问题陈述。需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没...

2018-07-18 19:28:59 246

转载 八、使用sklearn做单机特征工程

目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法    3.1.2 相关系数法 ...

2018-07-12 15:07:20 189

转载 九、回归——XGBoost算法

 一、Xgboost模型参数         Xgboost模型有3种类型的参数:通用参数、辅助参数和任务参数。通用参数确定上升过程中上升模型类型,常用树或线性模型;辅助参数取决于所选的上升模型;任务参数定义学习任务和相应的学习目标。Xgboost模型中,常用参数说明如下:(1)Xgboost:设置需要使用的上升模型。可选gbtree(树)或gblinear(线性函数),默认为gbt...

2018-06-21 10:40:36 14961

转载 七、基于机器学习方法对销售预测的研究

基于机器学习方法对销售预测的研究在开始今天的分享之前,我首先跟大家简单的聊一下,刚刚过去的双十一,大家可能更关心的是双十一的折扣,什么商品打了什么折扣。但是对于天猫而言,他们可能更关心的是双十一当天的销售额是多少,因为知道销售额,他就能提前做一个准备,做到未雨绸缪。作者:唐新春来源:大数据杂谈|2016-12-28 15:19 收藏  分享 很高兴“InfoQ”团队和“...

2018-06-19 16:59:39 16192

转载 六、回归——套索回归 (Lasso Regression)的基本应用

一、使用场合与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式:套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等于零。使用的惩罚值越大,估计...

2018-06-15 17:44:17 40061

原创 七、回归——回归预测的评价指标(附python代码)

目录一、常用的评价指标1、SSE(误差平方和)2、R-square(决定系数)3、Adjusted R-Square (校正决定系数)二、python中的sklearn.metrics(1)explained_variance_score(解释方差分)(2)Mean absolute error(平均绝对误差)(3)Mean squared error(均方误...

2018-06-15 14:36:47 36893 5

原创 五、线性回归——岭回归Ridge Regression

一、岭回归引进的原因当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。上面,我们看到了线性回归等式。还记得吗?它可以表示为:y=a+ b*x这个等式也有一个误差项。完整的等式是:y=a+b*...

2018-06-15 10:38:13 7997

原创 四、回归——LinearRegression

一、官方文档class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)1.参数:Ordinary least squares Linear Regression.(普通最小二乘线性回归)Parameters: fit_in...

2018-06-14 15:29:13 1081

原创 四、非平稳序列的确定性分析

一、确定性因素分解1、确定性因素     由确定性因素导致的非平稳通常会显示出明显的规律性,所有的序列波动都可以归纳为受到以下四大类因素的综合影响:(1)长期趋势(trend)。序列呈现出明显的长期递增或递减的变化趋势。(2)循环波动(circle)。序列呈现出从低到高再从高到低的反复循环波动。循环的周期可以变化,不一定是固定的。(3)季节性变化(season)。序列呈现出和季...

2018-06-12 11:03:24 4063

原创 三、用python实现平稳时间序列的建模

一、平稳序列建模步骤    假如某个观察值序列通过序列预处理可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列进行建模。建模的基本步骤如下:(1)求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。(2)根据样本自相关系数和偏自相关系数的性质,选择适当的ARMA(p,q)模型进行拟合。(3)估计模型中位置参数的值。(4)检验模型的有效性。如果模...

2018-06-11 22:45:49 24471 10

原创 二、时间序列的预处理

一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。一、平稳性检验1、特征统计量(1)概率分布          数理统计的基础知识告诉我们分布函数或者密度函数能够完整地描述一个随机变量的统计特征。同样,一个堆积变量族{Xt} 的统计特征也完全由...

2018-06-11 11:28:29 24339 3

原创 一、时间序列分析的简介

一、时间序列的基本概念        按照时间的顺序把随机时间变化发展的过程记录下来就构成了一个时间序列,对时间序列进行观察、研究,寻找它的变化发展规律,预测它将来的走势,就是时间序列分析。        在统计研究中,常用按时间顺序排列的一组随机变量               X1  ,  X2  , ... ,Xt , ....来表识一个随机事件的随机序列,简记为{Xt , ...

2018-06-11 10:22:04 5626

原创 五、python 缺失值处理(Imputation)

一、缺失值的处理方法      由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。       使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会...

2018-06-08 19:48:59 21230

原创 四、数据标准化 Scikit-learn Preprocessing

一、标准化、去均值、方差缩放(variance scaling)1.原理介绍   通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。下面简单介绍着几种规范化的原理:(1)最小--最大规范化             最小--最...

2018-06-08 16:23:59 999

原创 三、回归——logistic回归二分类的python实现

一、训练算法:使用梯度上升找到最佳参数1.使用Logistic回归梯度上升优化算法       每次更新回归系数都要遍历整个数据集,该算法在处理100左右各样本时还可以,但是如果有数十亿样本或者成千上万的特征,那么该算法就太过于复杂了。import osfrom numpy import *os.chdir("E:\python learning\Machine Learnin...

2018-06-08 15:43:05 14146 4

原创 二、回归——logistic regression实现多类别分类的实现

一、one-Versus-All,OVA方法     一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合分类器投票。例如,如果分类器j预测X为正类,则类j得到一票。如果他测得X为正类,则类j得到一票。如果测...

2018-06-08 13:03:52 9845 1

原创 一、回归——sklearn.linear_model.LogisticRegression官方文档

1.logistic回归logistic回归可以用于概率预测、分类等。2.sklearn.linear_model.LogisticRegression函数参数LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_wei...

2018-06-07 19:47:14 3846

转载 pandas.cut与pandas.qcut使用方法与区别

pandas.cut:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数:x,类array对象,且必须为一维,待切割的原形式 bins, 整数、序列尺度、或间隔索引。如果bins是一个整数,它定义了x宽度范围内的等宽面元数量,但是在这种情况下,...

2018-06-05 11:08:14 3219

转载 三、Seaborn-05-Pairplot多变量图

#-*- coding:utf-8 -*-from __future__ import divisionimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsseaborn.pairplot(data, hue=None, hue_order=None, palette=None, vars=No...

2018-06-03 22:36:16 5269

转载 Numpy中Meshgrid函数介绍及2种应用场景

Meshgrid函数的基本用法在Numpy的官方文章里,meshgrid函数的英文描述也显得文绉绉的,理解起来有些难度。可以这么理解,meshgrid函数用两个坐标轴上的点在平面上画网格。用法:  [X,Y]=meshgrid(x,y)  [X,Y]=meshgrid(x)与[X,Y]=meshgrid(x,x)是等同的  [X,Y,Z]=meshgrid(x,y,z)生成三维数组,可用来计算三变...

2018-06-02 21:49:00 6521 1

转载 五、降维——从SNE到t-SNE再到LargeVis

0x00 前言本文谢绝转载,如有需要请联系bindog###outlook.com,###换成@数据可视化是大数据领域非常倚重的一项技术,但由于业内浮躁的大环境影响,这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中,简陋的可视化效果太丑,过于华丽的可视化效果只能忽悠忽悠外行,而给内行的感觉就是刻意为之、华而不实。曾几何时,可视化技术不过是一种数据分析的手段罢了。惭愧的...

2018-05-18 18:18:36 3292

随机森林原理、示例、应用

本资源主要简单介绍随机森林的原理,随机森林的应用特点,以及它的实例和在python上的实现。

2018-10-16

数理统计——基本概念及专题-李泽慧等译

《数理统计习题教程(上下)》为《数理统计——基本概念及专题》的配套习题解答。主要内容包括概率论中的一些课题、统计模型、估计方法、估计的比较——最优化理论、从估计到置信区间和假设检验、最优化检验与置信区间——似然比检验及有关方法,线性模型——回归和方差分析,离散数《数理统计习题教程(上下)》可供大专院校有关专业作为数理统计课程的配套教材和参考书。

2018-06-09

统计学_David Freedman

非常有名的统计学经典书籍,这本书读起来是比较轻松的,因为不需要太多的概率论基础,也没有很复杂的推导或公式。本书采用概率论的频率理论来讨论统计学,重视统计思想及引导如何应用统计学解决实际问题。书中所采用的例子和习题采用的数据绝大多数都是实际的数据(与国内教材的造的数据与例子形成鲜明对比,有点遗憾的数据几乎都是美国的)。除每章的复习题外,所有的习题都有答案。约95%的习题是简单的,做它们可以很好地复习教材内容;但另外5%的习题却只是貌似简单而已,思考它们将使我们受益。第四部分概率有概率论基础的人可以快速略过。

2018-06-09

R数据分析与案例详解

《R数据分析--方法与案例详解(双色)》是一本R 语言和数据分析的入门教材,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习统计方法、R 语言的基本使用以及编程技巧。

2018-06-09

R语言编程艺术

《R语言编程艺术》是R语言领域公认的经典著作,由著名计算机科学家兼统计学家撰写,Amazon五星级畅销书。它是一本面向R语言开发者的纯编程类书籍,不需要读者具备统计学基础,从编程角度而非统计学角度系统讲解了R语言的数据结构、编程结构、语法、TCP/IP网络编程、并行计算、代码调试、程序性能优化、编程技巧以及R语言与其他语言的接口等所有与R编程相关的知识,几乎面面俱到。本书的实用性也非常强,44个精选的扩展案例,充分展示了R语言在数据处理和统计分析方面的强大能力。 全书一共16章:第1章介绍了学习R语言需要掌握的预备知识以及它的一些重要数据结构;第2~6章详细讲解了R语言的主要数据结构,包括向量、矩阵、数组、列表、数据框和因子;第7~13章全面讲解了R语言的语法,包括编程结构、面向对象特性、数学运算与模拟、输入与输出、字符串处理、绘图,以及R语言的调试方法。第14~16章讲解了R语言编程的高级内容,如执行速度和性能的提升、R语言与C/C++或Python的混合编程,以及R语言的并行计算等。

2018-06-09

pandas模块的常用

压缩包中主要有5个文档,主要介绍pandas的数据结构、结冰功能、pandas的汇总和统计描述、处理缺失值和pandas的层次化索引。有兴趣的小伙伴可以下载!!!!

2018-06-08

logistic回归二分类的python实现博文的数据

logistic回归二分类的python实现博文的源数据,想要对着代码来操作一遍的伙伴们可以在这里下载!

2018-06-08

《Machine Learning A Probabilistic Perspective》

机器学习非常推荐的一本书,能够兼顾深度和广度、并且比较适合拥有计算机科学或其它相关领域基础的初学者的教材

2018-06-08

利用python进行数据分析

用python做数据分析非常推荐的一本书!!书中讲解了pandas、numpy、matplotlib包的使用,非常适合初学者使用!!

2018-06-08

logistic regression实现多类别分类的实现数据集

logistic regression实现多类别分类的实现数据集的源数据

2018-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除