自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nicole的博客

记录机器学习中遇到的问题

原创 Can not connect to MYSQL server on 10060解决方式汇总

1、如果使用localhost可以连接上,用ip连接不上,可能是host 地址改变了,先检查host地址;使用ipconfig 2、如果是localhost和ip都连接不上,可能是服务器没有启动;按以下步骤启动;

2020-05-18 14:17:42 107 0

转载 卡方分布、卡方独立性检验和拟合性检验理论及其python实现

目录 1. 卡方分布 1.1 简介 1.2 定义 1.3 卡方分布的密度函数 1.4 性质(后续填坑) 2. 卡方检验 2.1 简介 2.2 卡方独立性检验 2.4 卡方拟合性检验 2.5 卡方拟合性检验和独立性检验之间的关系  3 文献   正文 ...

2018-12-05 22:18:48 1036 0

转载 三、亚马逊产品定价其实就这么简单,一个公式解决

目录 一、影响定价的因素 二、了解行情,进行比价 三、亚马逊商品的一般定价公式 四、产品在不同阶段的定价方法 五、定价的小诀窍 六、价格调整策略 海猫跨境作者:海猫跨境 2016-11-24 16:33:51 如果产品销量不好,很多卖家首先想到的是图片、listing是不是做的不...

2018-09-29 17:50:42 7465 1

转载 四、集成学习之bagging——Random Forest

[Machine Learning & Algorithm] 随机森林(Random Forest) 目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简...

2018-09-27 18:01:07 764 0

原创 三、集成学习方法——boosting和bagging

一、集成学习的基本概念 1、集成学习的原理 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时候也称为多分类器系统(mult-classifer system)、基于委员会的学习(committee - based learning)等。 集成学习的目...

2018-09-18 23:07:01 321 0

转载 PYTHON-基础-时间日期处理小结

目录 涉及对象 1. datetime 2. timestamp 3. time tuple 4. string 5. date datetime基本操作 1. 获取当前datetime 2. 获取当天date 3. 获取明天/前N天 4. 获取当天开始和结束时间(00:00...

2018-09-18 13:57:34 132 0

转载 二、分类——分类预测的评价指标(附python代码)

目录 一、常用的分类算法的评价指标 1.混淆矩阵 2.评价指标 如何画ROC曲线? 一、常用的分类算法的评价指标 (1)Precision (2)Recall (3)F-score (4)Accuracy (5)ROC (6)AUC 1.混淆矩阵 混淆矩阵是监督学习中的一...

2018-09-14 21:20:15 7268 1

转载 八、回归——XGBoost 与 Boosted Tree

作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。 注解:truth4sex  编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体...

2018-09-14 09:55:00 314 0

转载 六、Sklearn-CrossValidation交叉验证

交叉验证概述 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问...

2018-09-14 09:33:29 120 0

原创 四、如何测试模型在真实数据上的表现

1.对照实验。在实验中设置对照组,为了与即将进行实验的组进行对比,减少实验中一些不确定因素的影响。 将数据分成两部分,实验组和对照组,检验实验组合对照组在统计意义上是否有明显差异 2.观察性实验。在实际研究中,研究者可能无办法去控制一些影响因素,例如: (1)随机对照实验违反伦理道德。 (...

2018-09-03 14:50:27 2180 0

原创 路由和视图函数基本概念

《FlaskWeb开发:基于python的Web应用开发应用》笔记一 一、路由和视图函数 1.什么叫路由?     客户端(例如Web浏览器)把请求发送给Web服务器,Web服务器再把请求发送给Flask程序实例。程序实例需要知道对每个URL请求运行哪些代码,所以保存了一个URL到pytho...

2018-08-12 16:27:38 2983 0

转载 三、机器学习算法的优点和缺点

数据人网 • 2018-06-01 23:37 • 人工智能 • 阅读 282   从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。奥卡姆的剃刀原理:使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。 根据...

2018-07-30 18:34:07 236 0

转载 二、算法太多挑花眼?教你如何选择正确的机器学习算法

张乐 • 2018-07-05 09:09 • 人工智能 • 阅读 1543 机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?   作者 Rajat Harlalka 编译  Geek AI、张倩 本文转自机器之...

2018-07-30 18:23:50 99 0

翻译 二、完美定价零件Deux - 减少销售额带来的更多收益

这是Jarrod Drysdale的客座文章- 一位网页设计师和引导程序员,他最近为他的电子书打破了五位数的销售额,该电子书教导了自助式设计原则和策略。他曾在创业公司,金融公司,电影制片厂和消费者品牌的代理商和自由职业者工作过。在这里,Jarrod分析了为什么他的价值定价策略以比上周发布的定价策略...

2018-07-25 23:28:58 185 0

翻译 一、完美的定价如何让我在2天内获得1500个销量

        这是Sacha Greif的客座文章,   他是一位设计师和企业家,他最近出售了数千本自行出版的电子书,展示了  如何逐步设计用户界面。他曾与多家创业公司合作,也是Folyo的创始人,这项服务可以帮助公司找到经过审查的自由设计师。在这里,Sacha解释了他如何设定电子书的定价 - ...

2018-07-25 23:20:06 88 0

转载 一、聚类——机器学习:Mean Shift聚类算法

本文由ChardLau原创,转载请添加原文链接https://www.chardlau.com/mean-shift/ 今天的文章介绍如何利用Mean Shift算法的基本形式对数据进行聚类操作。而有关Mean Shift算法加入核函数计算漂移向量部分的内容将不在本文讲述范围内。实际上除了聚类,...

2018-07-24 14:59:09 1489 0

翻译 十、假设检验

Edward Teller, the famous Hungarian-American physicist, once quoted: “A fact is a simple statement that everyone believes. It is innocent, unless fo...

2018-07-18 20:19:12 237 0

翻译 十、模型自变量选择方法

在本系列的最后一篇文章中,我们讨论了多元线性回归模型。费尔南多创建了一个模型,根据五个输入参数估算汽车价格。 费尔南多的确获得了一个比较好的模型,然而,费尔南多想要获得最好的输入变量集 本文将详细介绍模型选择方法 一、概念 模型选择方法的想法很直观。它回答了以下问题: 如何为最佳模型...

2018-07-18 19:51:22 7799 2

翻译 九、机器学习一些基本概念

一、数据科学项目的各个阶段 1.定义业务问题       Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 这句话是定义业务问题的关键。  需要开发和...

2018-07-18 19:28:59 90 0

转载 八、使用sklearn做单机特征工程

目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 ...

2018-07-12 15:07:20 91 0

转载 九、回归——XGBoost算法

  一、Xgboost模型参数          Xgboost模型有3种类型的参数:通用参数、辅助参数和任务参数。通用参数确定上升过程中上升模型类型,常用树或线性模型;辅助参数取决于所选的上升模型;任务参数定义学习任务和相应的学习目标。 Xgboost模型中,常用参数说明如下: (1)Xg...

2018-06-21 10:40:36 6063 0

转载 七、基于机器学习方法对销售预测的研究

基于机器学习方法对销售预测的研究 在开始今天的分享之前,我首先跟大家简单的聊一下,刚刚过去的双十一,大家可能更关心的是双十一的折扣,什么商品打了什么折扣。但是对于天猫而言,他们可能更关心的是双十一当天的销售额是多少,因为知道销售额,他就能提前做一个准备,做到未雨绸缪。 作者:唐新春来源:大数据...

2018-06-19 16:59:39 7754 0

转载 六、回归——套索回归 (Lasso Regression)的基本应用

一、使用场合 与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式: 套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而...

2018-06-15 17:44:17 15840 0

原创 七、回归——回归预测的评价指标(附python代码)

目录 一、常用的评价指标 1、SSE(误差平方和) 2、R-square(决定系数) 3、Adjusted R-Square (校正决定系数) 二、python中的sklearn.metrics (1)explained_variance_score(解释方差分) (2)Mean a...

2018-06-15 14:36:47 15925 4

原创 五、线性回归——岭回归Ridge Regression

一、岭回归引进的原因 当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。 上面,我们看到了线性回归等式。...

2018-06-15 10:38:13 1897 0

原创 四、回归——LinearRegression

一、官方文档 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1) 1.参数: Ordinary least squares Linear...

2018-06-14 15:29:13 279 0

原创 四、非平稳序列的确定性分析

一、确定性因素分解 1、确定性因素      由确定性因素导致的非平稳通常会显示出明显的规律性,所有的序列波动都可以归纳为受到以下四大类因素的综合影响: (1)长期趋势(trend)。序列呈现出明显的长期递增或递减的变化趋势。 (2)循环波动(circle)。序列呈现出从低到高再从高到低的...

2018-06-12 11:03:24 981 0

原创 三、用python实现平稳时间序列的建模

一、平稳序列建模步骤     假如某个观察值序列通过序列预处理可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列进行建模。建模的基本步骤如下: (1)求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。 (2)根据样本自相关系数和偏自相关系数的性质,选择适当...

2018-06-11 22:45:49 13901 4

原创 二、时间序列的预处理

一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。 一、平稳性检验 1、特征统计量 (1)概率分布           数理统计的基础知识告诉我们分布...

2018-06-11 11:28:29 14046 2

原创 一、时间序列分析的简介

一、时间序列的基本概念         按照时间的顺序把随机时间变化发展的过程记录下来就构成了一个时间序列,对时间序列进行观察、研究,寻找它的变化发展规律,预测它将来的走势,就是时间序列分析。         在统计研究中,常用按时间顺序排列的一组随机变量                X1...

2018-06-11 10:22:04 2136 0

原创 五、python 缺失值处理(Imputation)

一、缺失值的处理方法       由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。 ...

2018-06-08 19:48:59 11774 0

原创 四、数据标准化 Scikit-learn Preprocessing

一、标准化、去均值、方差缩放(variance scaling) 1.原理介绍    通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。 下...

2018-06-08 16:23:59 256 0

原创 三、回归——logistic回归二分类的python实现

一、训练算法:使用梯度上升找到最佳参数 1.使用Logistic回归梯度上升优化算法        每次更新回归系数都要遍历整个数据集,该算法在处理100左右各样本时还可以,但是如果有数十亿样本或者成千上万的特征,那么该算法就太过于复杂了。 import os from numpy imp...

2018-06-08 15:43:05 7398 0

原创 二、回归——logistic regression实现多类别分类的实现

一、one-Versus-All,OVA方法      一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合...

2018-06-08 13:03:52 6040 1

原创 一、回归——sklearn.linear_model.LogisticRegression官方文档

1.logistic回归 logistic回归可以用于概率预测、分类等。 2.sklearn.linear_model.LogisticRegression函数参数 LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0,...

2018-06-07 19:47:14 1952 0

转载 pandas.cut与pandas.qcut使用方法与区别

pandas.cut: pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) 参数: x,类array对象,且必须为一维,待切割的原形式 bins, 整数...

2018-06-05 11:08:14 1480 0

转载 三、Seaborn-05-Pairplot多变量图

#-*- coding:utf-8 -*- from __future__ import division import numpy as np import matplotlib.pyplot as plt import seaborn as sns seaborn.pairplot(da...

2018-06-03 22:36:16 2379 0

转载 Numpy中Meshgrid函数介绍及2种应用场景

Meshgrid函数的基本用法在Numpy的官方文章里,meshgrid函数的英文描述也显得文绉绉的,理解起来有些难度。可以这么理解,meshgrid函数用两个坐标轴上的点在平面上画网格。用法:  [X,Y]=meshgrid(x,y)  [X,Y]=meshgrid(x)与[X,Y]=meshg...

2018-06-02 21:49:00 3931 1

转载 五、降维——从SNE到t-SNE再到LargeVis

0x00 前言 本文谢绝转载,如有需要请联系bindog###outlook.com,###换成@ 数据可视化是大数据领域非常倚重的一项技术,但由于业内浮躁的大环境影响,这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中,简陋的可视化效果太丑,过于华丽的可视化效果只能忽悠忽悠外...

2018-05-18 18:18:36 1808 0

转载 Pandas使用DataFrame进行数据分析比赛进阶之路(一)

这篇文章中使用的数据集是一个足球球员各项技能及其身价的csv表,包含了60多个字段。数据集下载链接:数据集1、DataFrame.info()这个函数可以输出读入表格的一些具体信息。这对于加快数据预处理非常有帮助。import pandas as pd import matplotlib.pypl...

2018-05-18 18:10:33 475 0

提示
确定要删除当前文章?
取消 删除