自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 第2章 查询基础

简介:  1、select 语句基础  2、算数运算符和比较运算符  3、逻辑运算符一、select 语句基础-- select 列名 from 表名,也可以用select * from 表名select product_id from product;select * from product;-- 使用别名显示,中文为什么这个数据...

2018-06-10 21:02:00 101

转载 第1章 数据库和SQL

简介:  1、数据库是什么  2、数据库的结构  3、SQL概要  4、表的创建  5、表的删除和更新一、数据库是什么数据库是把大量的数据保存起来,通过计算机可以高效访问的数据集合管理数据库的系统就做数据库管理系统,DBMS二、数据库的结构通过客户端访问服务器(RDBMS),服务器再访问存储在数据库上的数据,数据库再把数据返回给服务器,...

2018-06-10 18:44:00 112

转载 第0章 绪论

打算从头开始整理SQL的教程,依赖于postgresql数据库简介:搭建SQL的学习环境知识点:1、PostgreSQL的安装和连接设置    2、通过PostgreSQL执行SQL语句一、安装下载地址:https://www.enterprisedb.com/downloads/postgres-postgresql-downloads选择合适的版本进...

2018-06-10 18:04:00 124

转载 用户贷款风险预测—特征提取

本次竞赛提供的数据源一共有五个,依次做特征提取一、信用卡账单特征提取1、基本思路:将数据分成时间已知时间未知两部分,时间已知中再分成放款前的数据和放款后的数据,放款前放款后的再分成去重的数据和不去重数据,最终对数据做sum,count,mean,max,min,median,std等指标#处理数据函数def 信用卡账单特征提取(data,feature,name):...

2018-04-04 15:06:00 384

转载 用户贷款风险预测—数据探索

竞赛地址:http://www.pkbigdata.com/common/cmpt/%E7%94%A8%E6%88%B7%E8%B4%B7%E6%AC%BE%E9%A3%8E%E9%99%A9%E9%A2%84%E6%B5%8B_%E8%B5%9B%E4%BD%93%E4%B8%8E%E6%95%B0%E6%8D%AE.html数据探索:比赛一共提供五张表,分别是:  训练数...

2018-04-03 10:44:00 386

转载 Python 数据分析—画图

一、matplotlib的用法折线图+一些常用的设置#显示中文import matplotlib as mplmpl.rcParams['font.sans-serif'] = [u'SimHei']mpl.rcParams['axes.unicode_minus'] = Falsefig,ax = plt.subplots()fig.set_siz...

2018-03-28 16:33:00 142

转载 线性回归—手工实现

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltclass linear_regression(object): #计算均方误差损失 def compute_loss(self,y,y_hat): return np.ave...

2018-03-26 17:47:00 156

转载 数据分析——用户分群分析

针对用户群体的特征做分群分析,也有点类似RFM模型一样,不过可选的指标比只选择RFM三个指标更多,这里用的数据是航空公司用户的数据,数据指标包括下面上代码:import pandas as pddata = pd.read_csv('air_data.csv')#数据的一些基本情况data.describe()#数据空值情况,会发现一些属性的空...

2018-03-22 15:21:00 531

转载 聚类

一、距离的度量几种常见的距离度量方式要了解,其中闵可夫斯基距离当p=2时候就是欧式距离,等于1时就是街区距离二、K-means步骤:1、随机选择K个类别中心2、计算每个样本与中心的距离,标记为距离最小的那个类3、计算每个簇的平均值作为新的中心,然后重新重复第二步,直到两次样本中心的变化小于某个值就停止注意:其实k_means算法也有目标函数,目标函...

2018-03-20 18:02:00 93

转载 SVM理论

这个博主写的很好:http://blog.csdn.net/on2way/article/details/47729419一、学习步骤:1、线性可分支持向量机:就是最基本的原始模式2、线性支持向量机:在可分基础上加入了一个惩罚因子ξ3、非线性支持向量机:在线性基础上再引入核函数所以最重要的就是理解线性可分支持向量机的理论二、支持向量原理1、线性可分支持向...

2018-03-20 15:45:00 58

转载 集成学习实战——Boosting(GBDT,Adaboost,XGBoost)

集成学习实践部分也分成三块来讲解:sklearn官方文档:http://scikit-learn.org/stable/modules/ensemble.html#ensemble1、GBDTGradientBoostingClassifier:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble....

2018-03-17 09:39:00 124

转载 集成学习——Boosting(GBDT,Adaboost,XGBoost)

集成学习中还有一个重要的类别是Boosting,这个是基学习器具有较强依赖串行而成的算法,目前主流的主要有三个算法:GBDT,Adaboost,XGBoost这个链接可以看看:https://www.cnblogs.com/willnote/p/6801496.html不同点:1、adaboost使用的是指数损失(其实也可以使用别的损失函数,不过指数损失比较好解释),直接偏导...

2018-03-16 17:39:00 191

转载 集成学习(Random Forest)——实践

对于集成学习,由于是多个基学习期共同作用结果,因此在做参数调节时候就有基学习器的参数和集成学习的参数两类在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor官方文档:http://scikit-learn.org/stable/modules/ensemble.html#ensembleR...

2018-03-16 15:56:00 154

转载 集成学习——Bagging

集成学习分成Bagging和Boosting两大类,这里也分成两篇来总结,两个类别的区别如下:主要根据集成的基学习期生成方式来分的,一个是强依赖关系,串行而成,代表是Boosting。另一种是不存在强依赖关系同时生成,代表是Bagging和随机森林(Random Forest)一、Bagging1、步骤1、在样本中使用重采样选出N个样本(跟原来的样本数量一致,这就导致...

2018-03-16 15:16:00 252

转载 决策树实践

官方文档:http://scikit-learn.org/stable/modules/tree.htmlscikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不...

2018-03-14 16:07:00 75

转载 决策树

  一、决策树1、基本流程有三种情况会让递归停止:1、当前节点包含的样本属于同一类别,无需划分。2、属性集为空,所有样本在所有属性上取值都一致,返回的是这个节点样本最多的类别。3、当前节点样本为空,这时候返回父节点的样本最多的类别2、划分选择1)熵:2)信息增益:,信息增益最大的就是最优的选择,这就是ID3算法3)信息增益率:,在信息增益基础上,...

2018-03-13 17:06:00 86

转载 线性回归实践

官方文档:http://scikit-learn.org/stable/modules/linear_model.html一、线性回归实践1、导入相关库,并查看数据情况2、对于预测的变量,查看分布情况3、对于几个特征,查看与因变量的关系结论:三个特征,前两个与销量呈现明显的线性关系,第三个关系比较弱4、建立模型,做预测...

2018-03-13 12:41:00 94

转载 线性回归

一、线性回归1、基本形式其中:W表示了各个属性在变量中的权重2、线性回归求解损失函数的推导过程运用高斯分布+极大似然估计推导如下所有样本满足这个公式:,其中e是误差项,假设满足高斯分布,可以写出概率分布函数如下,将e带入到概率分布函数中得到运用极大似然估计方法,,然后取对数,得到对数似然估计通过一系列数学运算,最后似然概率最大,也就是损失...

2018-03-12 12:34:00 165

转载 Tableau 读书笔记

使用书籍:《Tableau:数据可视化之极速BI》配套数据:网上下载的安装教程:使用时间驻留器####################################################################分割线。。。。###############################################################...

2018-03-09 14:20:00 190

转载 数据分析——作图(Python)

一、基础设置导入相关的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline #在ipython总显示图表默认不显示中文,因此需要更改设置,显示中文 #显示中文import...

2018-02-23 14:08:00 254

转载 数据分析——埋点

一、埋点如何做  数据的收集可以通过外部的工具比如:友盟和talking data等,不过部分深层次的用户行为数据还是需要做埋点收集的  做埋点时,一般需要两个表,一个是埋点事件表,一个是埋点统计表  1、埋点事件表:  数据埋点事件表一般是记录每个页面的交互事件,一般是后台记录次数。比如点击登录按钮的次数、点击获取验证码的次数,进入某个页面的次数、退出某个页面的次数等...

2018-02-23 11:46:00 196

转载 数据分析——AARRR模型

一、什么是AARRR模型  AARRR分别代表了五个单词,分别是产品生命周期中的五个阶段:获取(Acquisition):用户如何发现(并来到)你的产品?激活(Activation):用户的第一次使用体验如何?留存(Retention):用户是否还会回到产品(重复使用)?收入(Revenue):产品怎样(通过用户)赚钱?传播(Refer):用户是否愿意告诉其他...

2018-02-23 11:17:00 730

转载 kaggle_Titanic

# -*- coding: utf-8 -*-"""Created on Mon Oct 9 14:05:41 2017@author: lenovo"""import numpy as npimport pandas as pd#载入数据,合并测试集和训练集做特征处理data_train = pd.read_csv('./input/t...

2017-10-09 17:02:00 56

转载 机器学习—Logistic Regression

一、一般模型import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom...

2017-10-06 12:49:00 79

转载 机器学习—决策树

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_s...

2017-10-06 12:47:00 72

转载 机器学习—线性回归

一、普通的线性模型import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfro...

2017-10-05 20:25:00 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除