- 博客(49)
- 资源 (9)
- 收藏
- 关注
原创 svm-基于机器学习技法
这一章节聊聊SVM,网上关于svm的介绍学习材料也有很多,博主在学习了林轩田的机器学习技法的视频之后,只是想着去自我总结一下,并接下来对svm的调包更加熟悉。首先我们看一个线性分类的例子:从上图三个线性分类的例子中,他们都很好的将不同的类别圆圈和红叉分开了,至少从训练集上来看是这样的,但是哪一条直线是最好的呢?我们可以看见最右边的线到两侧的点的距离是最大的,距离越大,对噪声的忍...
2018-08-14 14:25:46 482
原创 lightgbm原理和调参参考资料汇总
Lightgbm总的来说,看完论文Lightgbm提高速度主要就是‘压缩数据的数量和维度’,降低训练数据的量,其中goss降低了数据数量,efb降低了数据的维度,基于Histogram的算法加快了扫描数据的速度,基于leaf-wise的树的生成,在同等所有节点上找到信息增益最大的进行分裂,对于一些 信息增益小的节点就不分裂,这样做减少开销。Lightgbm 的四个特点:一、 Gradi...
2018-08-07 13:48:02 10075
原创 分解预测
根据某啤酒生产企业2000~2005年各季度的销售量(单位:万吨)数据绘制时间序列图, (1)观察观察啤酒销售量的构成要素。 (2)预测2006年各季度的啤酒销售量。 啤酒销量.csv(下载附件172 B) 我的答案 ...
2020-12-25 22:12:00 606
原创 时间序列-holt-winter指数平滑
winter指数案例数据是1980年1月到1994年8月葡萄酒生产商销售的容量不到1L的澳大利亚酒的总量。 year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1980 15136 16733 20016 17708 18019 19227 22893 23739 21133 22591 26786 ..
2020-12-25 22:04:51 1201
原创 excel方差分析
某银行规定VIP客户的月均账户余额要达到100万元,并以此作为比较各分行业绩的一项指标。现从三个分行1、2、3中,分别随机抽取4个VIP客户账户,用单因素方差分析判断三个分行此项业绩指标是否相同。 第一步: VIP样本客户 某银行月均账户余额(万元) ...
2020-12-25 21:12:31 2358 1
原创 对应分析
手机好评率分析(对应分析) 本案例是某电商平台的手机销售数据。数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。 本案例根据手机的评分和手机评论内容对手机的好评、中评和差评个数进行了统计。收集到的数据如下: 手机数据.xlsx(下载附件 16.98 KB) ...
2020-12-24 23:13:40 1445
原创 KONO模型
某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法,并得到了公司的支持。假设你是小李 1.请你绘制KANO模型图来介绍对功能属性分类的思路; 2.请你对燃气灶的防干烧功能属性设计调查问题; ...
2020-12-24 23:04:15 992
原创 PSM模型
52 某中高档户外运动品牌为寻找合理的促销折扣力度, 对 300 名消费者进行了调查, 在回 收的 264 份有效问卷中, 对各档折扣分别持“比较便宜” 、 “太便宜了” 、 “还是有点贵” 、 讲义P91 “还是太贵” 四种态度的人数做了统计, 数据预览如下: 折扣 人数(人) 人数比例 累计人数比例 ...
2020-12-24 22:52:42 1736
原创 层次分析法
层次分析法步骤层次分析法主要用于解决评价类问题(例如:选择哪种方案最好、哪位运动员或者员工表现得更优秀)解决评价类问题,首先想到:评价的目标是什么 为了达到目的有哪几种可选方案 评价的准则或者指标是什么前两个问题答案显然,第三个问题需要根据题目中的背景材料,常识以及网上搜集到的资料(知网、万方等网站优先)进行结合定下准则后确定指标所占权重。由于一次性考虑多个指标之间的关系往往考虑不周,所以要两两指标进行比较,最终根据两两比较结果来推算权重。在比较时会用到如下重要程度表首先比较得出指
2020-12-24 22:38:55 4395
原创 巴斯模型
巴斯模型有三大基础假设:1、将消费者分为两类:创新消费者和模仿消费者。新产品的潜在采用者会受到大众媒体影响(外部影响)的采用者称为创新者;会受到口头传播影响(内部影响)的采用者为模仿者。2、模型中有三个参数:创新因子p,模仿因子q,以及整个生命周期产品的潜在销量N。3、在没有采用过该创新产品的情况下,发生初次购买行为的可能性与之前的购买者的数量呈线性关系。运用巴斯模型必须满足以下两个条件:1.企业已引入了该产品或该技术,并已观察到其几个时期的销售情况;2.企业尚未引入该产品或技术,但该产品或该技术在某些
2020-12-20 22:25:18 4150
原创 RFM模型
客户细分是客户关系管理的一个主要的组成部分,本文尝试以电商企业为研究对象根据其客户特点,提出了一种基于客户价值分析RFM模型,从而对客户进行分类,并对此结果进行动态的客户分析,以达到对不同的客户采取不同的客户服务的效果。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。RFM模型较为动态地层示了一个客户的全部轮廓,这对个性化的沟通.
2020-12-20 20:44:19 1207
原创 金融经济学二十五讲--徐高
徐高教授写的这本书着实不错,对于初学的金融同学来讲非常有助于构建金融理论框架,曾经本科学习时,我就用过这本书,逻辑很棒,这本书把金融理论发展给串了下来,读完会有很多收获,真的强烈推荐。文末见下载链接!!!链接:网盘链接提取码:提取码...
2020-10-29 21:39:29 2833
原创 python 卡方检验
##卡方检验from scipy.stats import chi2_contingencyfrom scipy.stats import chi2table = [[10,20,30],[6,9,17]]print(table)stat,p,dof,expected = chi2_contingency(table) # stat卡方统计值,p:P_value,dof 自由度,expected理论频率分布print('dof=%d'%dof)print(expected)prob =
2020-10-25 14:41:32 814
原创 用Navicat Premium 操作MySQL数据库
用Navicat Premium 操作MySQL数据库https://www.cnblogs.com/crazycode2/p/10205173.html
2020-10-14 21:25:51 177
原创 Python数据可视化 常用案例
主体代码先附上:# !pip install brewer2mplimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snsimport warnings; warnings.filterwarnings(action='once')large = 22; med = 16; small = 12params = {'
2020-05-15 14:02:51 5128
原创 可视化 --python 窗图
1 figure1.1 创建figure在上文中我们一直提到的figure指的是Figure类的实例化对象,当然我们一般不会直接去实例化Figure类,因为这样创建的Figure实例对象不能纳入序列中共同管理。matplotlib中提供了多种方法创建figure,其中属pyplot模块中的figure()方法最常用也最方便,下面我们来说说这个方法。figure方法参数如下:num:整型或字符串类型,可选参数,默认为None。这个参数课可以理解为是figure的身份标识,即id。当值为None时,
2020-05-15 13:40:05 1765
原创 python正则模块re
python正则模块re一.re模块内置的函数方法re.compile(pattern, flags=0)https://cdn.analyticsvidhya.com/wp-content/uploads/2019/06/seq2seq.gif)re.compile()方法可以把一个正则表达式编译成一个正则对象(PatternObj),返回的正则对象是操作其他处理字符串方法的主体。p...
2020-03-23 22:11:46 448
原创 torch learning 1
torch tensor1.tensor的值valueimport torchx = torch.empty(5, 3)print(x)#tensor([[0., 0., 0.], [0., 0., 0.], [0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])x=torch.rand(3,requires_gr...
2020-02-17 16:30:57 227
转载 将多个txt中的文件读写到一个TXT文件中
import os def ListFileToTxt(dir,file,wildcard,recursion=False): ''' dir : 文件路径 file: 找到的文件名写入路径 wildcard :查找的文件类型字符串 recursion : 查找方式: 是否递归查找 ''' exts = wildcard.split(' ...
2019-10-01 13:46:27 497
原创 python xgboost 调参
def modelfit(model, X_train, X_test, y_train, y_test,useTrainCV, eval_metric='auc', cv_folds=4, early_stopping_rounds=20): #early_stopping_rounds 在20轮迭代里没有提升的话,就停止 print('Model...
2019-09-06 21:48:16 820
原创 mysql 增删改
##表的创建、更新、修改创建表Createtable actorActor_id smallint(5) notnull Primary key,First_name varchar(45) not null,Last_name varchar(45) not null,Last_update timestamp not nullDefault(datetime(‘n...
2019-08-26 11:26:05 114
原创 mysql事务1
##mysql数据库事务###1. 主键 超键 候选键 外键主 键:数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键,且主键的取值不能缺失,即不能为空值(Null)。超 键:在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键,多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选键:是最小...
2019-08-26 11:19:38 116
原创 python 交叉验证1
# 2> 十折决策树算法from sklearn.tree import DecisionTreeClassifier #导入决策树模型from __future__ import divisionfrom sklearn.metrics import confusion_matrixp = 0.1 #设置训练集的比例N = 1/pcorrectRate = []for i ...
2019-08-25 22:06:29 2146
原创 python 时间序列缺失值
此处提供了三种数据填充方法:# 缺失值处理:补充缺失的数据# 三种方法:Lagrange插值法和Newton插值法以及Series自带的interpolate#1、Lagrange插值法和Newton插值法解决实际问题中关于只提供复杂的离散数据的函数求值问题,通过将所考察的函数简单化,构造关于离散数据实际函数f(x)的近似函数P(x),从而可以计算未知点出的函数值,是插值法的基本思路。#...
2019-08-25 22:02:07 3991 1
原创 python 回归问题特征筛选
import statsmodels.formula.api as smfimport pandas as pd def forward_selected(data, response): """前向逐步回归算法,源代码来自https://planspace.org/20150423-forward_selection_with_statsmodels/ 使用Adjuste...
2019-08-25 21:44:49 3135
原创 python 混淆矩阵绘图
y_predicted=bdt.predict(X_test)from sklearn.metrics import confusion_matrixfrom sklearn import cross_validation, metricsimport matplotlib.pyplot as pltplt.rc('figure',figsize=(5,5))cm = confusi...
2019-08-25 21:35:50 5737
原创 python EDA
#导入可能需要的包,应为我们先做的是初步的分析嘛,所以可视化的包和pandas,numpy ,scipy还是要导入的#https://www.kaggle.com/wkevin/house-prices/notebookimport plotly.offline as pyfrom plotly.graph_objs import Scatter, Layoutimport plotly...
2019-08-25 21:31:05 2775
原创 python 特征筛选
#特征初筛#如果是分类问题:对于分类变量,分析较多类的变迁分布是否差异明显,此类变量不删除#这里回归问题 则 不考虑def Remove_singleValue_var(df,var_list): # 变量取值同一性,删除 Sigle_var = [i for i in df if df[i].value_counts().so...
2019-08-24 10:56:34 1917
原创 python 文件读取 & 变量类型检查 & 缺失值分析
def read_file(filepath,filename): import os os.chdir(filepath) import pandas as pd data=pd.read_csv(filename) return data#变量类型检查def check_df_var_type(df): not_num_var=[] ...
2019-08-24 10:56:02 1215
原创 python psi指标
def Cal_Psi(score,pre_score,length=10): import math labels=['c'+str(i) for i in range(length)] True_out,bins=pd.qcut(score,q=length,retbins=True,labels=labels) bins[0] = bins[0]-0.001...
2019-08-23 22:03:08 6183 1
原创 python 特征筛选
from sklearn.feature_selection import VarianceThreshold,SelectKBest,chi2from sklearn.datasets import load_irisimport pandas as pdX,y = load_iris(return_X_y=True) X_df = pd.DataFrame(X,columns=l...
2019-08-23 22:02:16 1088 1
原创 python auc /precision_recall_vs_threshold 曲线绘制
from matplotlib import pyplot as plt%matplotlib inlinedef plot_precision_recall_vs_threshold (precisions, recalls, thresholds) :#precision_recall_curve函数的源码中,precision : array, shape = [n_thresho...
2019-08-23 21:47:56 2404 1
原创 python 参数选择 基于非常规metric
#调参通过网格搜索完成from sklearn.datasets import make_hastie_10_2from sklearn.model_selection import GridSearchCVfrom sklearn.metrics import make_scorerfrom sklearn.metrics import recall_score,r2_scorefr...
2019-08-23 21:43:41 623
原创 python 分类任务特征筛选1
#检验一个变量,如果取较多数值的(>=90%),如果较多类和较小类的label分布差异不明显,删除该变量def Remove_not_obvious(df,col,var_list,label='label'): '''df:数据样本''' '''col:检测变量''' '''label:标签''' '''vae_list:变量列表''' df_d...
2019-08-23 21:41:56 770
原创 python 绘制ks
from pandas import *import matplotlib.pyplot as pltdef PlotKS(preds, labels, n, asc): # preds is score: asc=1 # preds is prob: asc=0 pred = preds # 预测值 bad = labels # 取1...
2019-08-23 21:40:09 906
转载 kaggle比赛流程(转)
kaggle比赛流程(转)一、比赛概述不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常为 5 次。 比赛结束前一周是一个 Deadline,在这之后不能再组队,也不能再新加入比赛。所以想要参加比赛请务必在这一 Deadline 之前有过至少一次有效的提交。 一般情况下在提交后会...
2018-12-21 21:31:01 2540
原创 sql(1)
1、保存数据文件至对象select top 1000 * into tempfrom _tianyaPWDorder by newid() 2、选择select * from Student order by sdept,sage desc--前者升序,后者降序等于:select * from Student order by sdept,-sage 3、...
2018-11-04 15:17:54 248
原创 可视化二seaborn
三、强大的seabornSeaborn是一个在Python中制作有吸引力和信息丰富的统计图形的库。它建立在matplotlib之上,并与PyData堆栈紧密集成,包括支持来自scipy和statsmodels的numpy和pandas数据结构和统计例程。 Seaborn旨在将可视化作为探索和理解数据的核心部分。绘图函数对包含整个数据集的数据框和数组进行操作,并在内部执行必要的聚合和统计模型拟合...
2018-09-04 13:02:29 886
转载 可视化第一部分(简单的图形)
EDA之数据的可视化 自己也没想到可视化拖了这么久,有些python包真的很强大,但学起来也很复杂,挺有难度的。所以我打算从我们经常遇到的数据框角度出发来做数据的可视化。 一、pandas的可视化这种操作可以完成一些简单的可视化,可以直接传入kind类型或者直接在plot.后面加入需要的画图类型,传入需要的参数,对于数据框,散点图需要传入x,y,箱线图直接...
2018-08-27 19:10:01 2210
python正则模块re.pdf
2020-03-23
风控建模教程.pdf
2020-02-01
gcForest-master.zip
2018-05-09
An Introduction to Statistical Learning with Applications in R.pdf
2018-03-27
手写体数据
2018-03-27
利用Python进行数据分析
2018-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人