- 博客(70)
- 资源 (12)
- 收藏
- 关注
原创 天池竞赛:金融风控-贷款违约预测
竞赛地址:https://tianchi.aliyun.com/competition/entrance/531830/information
2020-09-15 20:18:05 3199
原创 Can not connect to MYSQL server on 10060解决方式汇总
1、如果使用localhost可以连接上,用ip连接不上,可能是host 地址改变了,先检查host地址;使用ipconfig2、如果是localhost和ip都连接不上,可能是服务器没有启动;按以下步骤启动;
2020-05-18 14:17:42 2016
转载 卡方分布、卡方独立性检验和拟合性检验理论及其python实现
目录1. 卡方分布 1.1 简介 1.2 定义 1.3 卡方分布的密度函数 1.4 性质(后续填坑) 2. 卡方检验 2.1 简介 2.2 卡方独立性检验 2.4 卡方拟合性检验 2.5 卡方拟合性检验和独立性检验之间的关系 3 文献 正文如果你在寻找卡方分布是什么?如何实现卡方检验?那么请看这篇博客,将以通俗易懂的语言,全面的阐述卡方、卡...
2018-12-05 22:18:48 4514
转载 三、亚马逊产品定价其实就这么简单,一个公式解决
目录一、影响定价的因素二、了解行情,进行比价三、亚马逊商品的一般定价公式四、产品在不同阶段的定价方法五、定价的小诀窍六、价格调整策略海猫跨境作者:海猫跨境2016-11-24 16:33:51如果产品销量不好,很多卖家首先想到的是图片、listing是不是做的不够好,很少卖家会想想是不是自己的定价有问题,定价对销量的影响也是至关重要的,定价是一门高深的学问,如果...
2018-09-29 17:50:42 12305 1
转载 四、集成学习之bagging——Random Forest
[Machine Learning & Algorithm] 随机森林(Random Forest)目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容1 什么是随机森林? 作为新兴起的、高度灵活...
2018-09-27 18:01:07 1647
原创 三、集成学习方法——boosting和bagging
一、集成学习的基本概念1、集成学习的原理集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时候也称为多分类器系统(mult-classifer system)、基于委员会的学习(committee - based learning)等。集成学习的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对于单个学习器来说)。集成学...
2018-09-18 23:07:01 685
转载 PYTHON-基础-时间日期处理小结
目录涉及对象1. datetime2. timestamp3. time tuple4. string5. datedatetime基本操作1. 获取当前datetime2. 获取当天date3. 获取明天/前N天4. 获取当天开始和结束时间(00:00:00 23:59:59)5. 获取两个datetime的时间差6. 获取本周/本月/上月最后...
2018-09-18 13:57:34 695
转载 二、分类——分类预测的评价指标(附python代码)
目录一、常用的分类算法的评价指标1.混淆矩阵2.评价指标如何画ROC曲线?一、常用的分类算法的评价指标(1)Precision(2)Recall(3)F-score(4)Accuracy(5)ROC(6)AUC1.混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的...
2018-09-14 21:20:15 17965 3
转载 八、回归——XGBoost 与 Boosted Tree
作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局 兄邀请写这篇文章。作为一个非常有...
2018-09-14 09:55:00 835
转载 六、Sklearn-CrossValidation交叉验证
交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型的...
2018-09-14 09:33:29 537
原创 四、如何测试模型在真实数据上的表现
1.对照实验。在实验中设置对照组,为了与即将进行实验的组进行对比,减少实验中一些不确定因素的影响。将数据分成两部分,实验组和对照组,检验实验组合对照组在统计意义上是否有明显差异2.观察性实验。在实际研究中,研究者可能无办法去控制一些影响因素,例如:(1)随机对照实验违反伦理道德。(2)研究者无法控制因素的发生与否。(3)在实际应用中可能由于控制因素的成本太大,也可能会采取这种方...
2018-09-03 14:50:27 3237
原创 路由和视图函数基本概念
《FlaskWeb开发:基于python的Web应用开发应用》笔记一一、路由和视图函数1.什么叫路由? 客户端(例如Web浏览器)把请求发送给Web服务器,Web服务器再把请求发送给Flask程序实例。程序实例需要知道对每个URL请求运行哪些代码,所以保存了一个URL到python函数的映射关系。处理URL和函数之间关系的程序称为路由。 在Flask 程序中定义路由...
2018-08-12 16:27:38 8244 1
转载 三、机器学习算法的优点和缺点
数据人网 • 2018-06-01 23:37 • 人工智能 • 阅读 282 从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。奥卡姆的剃刀原理:使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。根据我自己的经验,只有神经网络和梯度增强决策树(GBDT)正在工业中广泛使用。 我目睹Logistic回归...
2018-07-30 18:34:07 826
转载 二、算法太多挑花眼?教你如何选择正确的机器学习算法
张乐 • 2018-07-05 09:09 • 人工智能 • 阅读 1543机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢? 作者 Rajat Harlalka 编译 Geek AI、张倩 本文转自机器之心机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不...
2018-07-30 18:23:50 405
翻译 二、完美定价零件Deux - 减少销售额带来的更多收益
这是Jarrod Drysdale的客座文章- 一位网页设计师和引导程序员,他最近为他的电子书打破了五位数的销售额,该电子书教导了自助式设计原则和策略。他曾在创业公司,金融公司,电影制片厂和消费者品牌的代理商和自由职业者工作过。在这里,Jarrod分析了为什么他的价值定价策略以比上周发布的定价策略更少的销售额赚取更多的钱。Sacha 上周在这个博客上写了他的定价策略,并分享他在48小时内获得...
2018-07-25 23:28:58 367
翻译 一、完美的定价如何让我在2天内获得1500个销量
这是Sacha Greif的客座文章, 他是一位设计师和企业家,他最近出售了数千本自行出版的电子书,展示了 如何逐步设计用户界面。他曾与多家创业公司合作,也是Folyo的创始人,这项服务可以帮助公司找到经过审查的自由设计师。在这里,Sacha解释了他如何设定电子书的定价 - 这是其成功的关键一步。 我父亲最近责怪我买了面包店的便宜的、劣质的棕色面包。由于我们...
2018-07-25 23:20:06 320
转载 一、聚类——机器学习:Mean Shift聚类算法
本文由ChardLau原创,转载请添加原文链接https://www.chardlau.com/mean-shift/今天的文章介绍如何利用Mean Shift算法的基本形式对数据进行聚类操作。而有关Mean Shift算法加入核函数计算漂移向量部分的内容将不在本文讲述范围内。实际上除了聚类,Mean Shift算法还能用于计算机视觉等场合,有关该算法的理论知识请参考这篇文章。Mean S...
2018-07-24 14:59:09 2239
翻译 十、假设检验
Edward Teller, the famous Hungarian-American physicist, once quoted:“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that...
2018-07-18 20:19:12 578
翻译 十、模型自变量选择方法
在本系列的最后一篇文章中,我们讨论了多元线性回归模型。费尔南多创建了一个模型,根据五个输入参数估算汽车价格。费尔南多的确获得了一个比较好的模型,然而,费尔南多想要获得最好的输入变量集本文将详细介绍模型选择方法一、概念模型选择方法的想法很直观。它回答了以下问题:如何为最佳模型选择正确的输入变量?如何定义最佳模型?最优模型是使数据与评估指标的最佳值相匹配的模型。...
2018-07-18 19:51:22 14250 2
翻译 九、机器学习一些基本概念
一、数据科学项目的各个阶段1.定义业务问题 Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 这句话是定义业务问题的关键。 需要开发和构建问题陈述。需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没...
2018-07-18 19:28:59 246
转载 八、使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 ...
2018-07-12 15:07:20 189
转载 九、回归——XGBoost算法
一、Xgboost模型参数 Xgboost模型有3种类型的参数:通用参数、辅助参数和任务参数。通用参数确定上升过程中上升模型类型,常用树或线性模型;辅助参数取决于所选的上升模型;任务参数定义学习任务和相应的学习目标。Xgboost模型中,常用参数说明如下:(1)Xgboost:设置需要使用的上升模型。可选gbtree(树)或gblinear(线性函数),默认为gbt...
2018-06-21 10:40:36 14961
转载 七、基于机器学习方法对销售预测的研究
基于机器学习方法对销售预测的研究在开始今天的分享之前,我首先跟大家简单的聊一下,刚刚过去的双十一,大家可能更关心的是双十一的折扣,什么商品打了什么折扣。但是对于天猫而言,他们可能更关心的是双十一当天的销售额是多少,因为知道销售额,他就能提前做一个准备,做到未雨绸缪。作者:唐新春来源:大数据杂谈|2016-12-28 15:19 收藏 分享 很高兴“InfoQ”团队和“...
2018-06-19 16:59:39 16192
转载 六、回归——套索回归 (Lasso Regression)的基本应用
一、使用场合与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式:套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等于零。使用的惩罚值越大,估计...
2018-06-15 17:44:17 40061
原创 七、回归——回归预测的评价指标(附python代码)
目录一、常用的评价指标1、SSE(误差平方和)2、R-square(决定系数)3、Adjusted R-Square (校正决定系数)二、python中的sklearn.metrics(1)explained_variance_score(解释方差分)(2)Mean absolute error(平均绝对误差)(3)Mean squared error(均方误...
2018-06-15 14:36:47 36893 5
原创 五、线性回归——岭回归Ridge Regression
一、岭回归引进的原因当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。上面,我们看到了线性回归等式。还记得吗?它可以表示为:y=a+ b*x这个等式也有一个误差项。完整的等式是:y=a+b*...
2018-06-15 10:38:13 7997
原创 四、回归——LinearRegression
一、官方文档class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)1.参数:Ordinary least squares Linear Regression.(普通最小二乘线性回归)Parameters: fit_in...
2018-06-14 15:29:13 1081
原创 四、非平稳序列的确定性分析
一、确定性因素分解1、确定性因素 由确定性因素导致的非平稳通常会显示出明显的规律性,所有的序列波动都可以归纳为受到以下四大类因素的综合影响:(1)长期趋势(trend)。序列呈现出明显的长期递增或递减的变化趋势。(2)循环波动(circle)。序列呈现出从低到高再从高到低的反复循环波动。循环的周期可以变化,不一定是固定的。(3)季节性变化(season)。序列呈现出和季...
2018-06-12 11:03:24 4063
原创 三、用python实现平稳时间序列的建模
一、平稳序列建模步骤 假如某个观察值序列通过序列预处理可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列进行建模。建模的基本步骤如下:(1)求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。(2)根据样本自相关系数和偏自相关系数的性质,选择适当的ARMA(p,q)模型进行拟合。(3)估计模型中位置参数的值。(4)检验模型的有效性。如果模...
2018-06-11 22:45:49 24471 10
原创 二、时间序列的预处理
一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。一、平稳性检验1、特征统计量(1)概率分布 数理统计的基础知识告诉我们分布函数或者密度函数能够完整地描述一个随机变量的统计特征。同样,一个堆积变量族{Xt} 的统计特征也完全由...
2018-06-11 11:28:29 24339 3
原创 一、时间序列分析的简介
一、时间序列的基本概念 按照时间的顺序把随机时间变化发展的过程记录下来就构成了一个时间序列,对时间序列进行观察、研究,寻找它的变化发展规律,预测它将来的走势,就是时间序列分析。 在统计研究中,常用按时间顺序排列的一组随机变量 X1 , X2 , ... ,Xt , ....来表识一个随机事件的随机序列,简记为{Xt , ...
2018-06-11 10:22:04 5626
原创 五、python 缺失值处理(Imputation)
一、缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。 使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会...
2018-06-08 19:48:59 21230
原创 四、数据标准化 Scikit-learn Preprocessing
一、标准化、去均值、方差缩放(variance scaling)1.原理介绍 通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。下面简单介绍着几种规范化的原理:(1)最小--最大规范化 最小--最...
2018-06-08 16:23:59 999
原创 三、回归——logistic回归二分类的python实现
一、训练算法:使用梯度上升找到最佳参数1.使用Logistic回归梯度上升优化算法 每次更新回归系数都要遍历整个数据集,该算法在处理100左右各样本时还可以,但是如果有数十亿样本或者成千上万的特征,那么该算法就太过于复杂了。import osfrom numpy import *os.chdir("E:\python learning\Machine Learnin...
2018-06-08 15:43:05 14146 4
原创 二、回归——logistic regression实现多类别分类的实现
一、one-Versus-All,OVA方法 一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合分类器投票。例如,如果分类器j预测X为正类,则类j得到一票。如果他测得X为正类,则类j得到一票。如果测...
2018-06-08 13:03:52 9845 1
原创 一、回归——sklearn.linear_model.LogisticRegression官方文档
1.logistic回归logistic回归可以用于概率预测、分类等。2.sklearn.linear_model.LogisticRegression函数参数LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_wei...
2018-06-07 19:47:14 3846
转载 pandas.cut与pandas.qcut使用方法与区别
pandas.cut:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数:x,类array对象,且必须为一维,待切割的原形式 bins, 整数、序列尺度、或间隔索引。如果bins是一个整数,它定义了x宽度范围内的等宽面元数量,但是在这种情况下,...
2018-06-05 11:08:14 3219
转载 三、Seaborn-05-Pairplot多变量图
#-*- coding:utf-8 -*-from __future__ import divisionimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsseaborn.pairplot(data, hue=None, hue_order=None, palette=None, vars=No...
2018-06-03 22:36:16 5269
转载 Numpy中Meshgrid函数介绍及2种应用场景
Meshgrid函数的基本用法在Numpy的官方文章里,meshgrid函数的英文描述也显得文绉绉的,理解起来有些难度。可以这么理解,meshgrid函数用两个坐标轴上的点在平面上画网格。用法: [X,Y]=meshgrid(x,y) [X,Y]=meshgrid(x)与[X,Y]=meshgrid(x,x)是等同的 [X,Y,Z]=meshgrid(x,y,z)生成三维数组,可用来计算三变...
2018-06-02 21:49:00 6521 1
转载 五、降维——从SNE到t-SNE再到LargeVis
0x00 前言本文谢绝转载,如有需要请联系bindog###outlook.com,###换成@数据可视化是大数据领域非常倚重的一项技术,但由于业内浮躁的大环境影响,这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中,简陋的可视化效果太丑,过于华丽的可视化效果只能忽悠忽悠外行,而给内行的感觉就是刻意为之、华而不实。曾几何时,可视化技术不过是一种数据分析的手段罢了。惭愧的...
2018-05-18 18:18:36 3292
数理统计——基本概念及专题-李泽慧等译
2018-06-09
统计学_David Freedman
2018-06-09
R数据分析与案例详解
2018-06-09
R语言编程艺术
2018-06-09
pandas模块的常用
2018-06-08
《Machine Learning A Probabilistic Perspective》
2018-06-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人