wei_liao-CSDN博客

原创 svm-基于机器学习技法

这一章节聊聊SVM,网上关于svm的介绍学习材料也有很多，博主在学习了林轩田的机器学习技法的视频之后，只是想着去自我总结一下，并接下来对svm的调包更加熟悉。首先我们看一个线性分类的例子：从上图三个线性分类的例子中，他们都很好的将不同的类别圆圈和红叉分开了，至少从训练集上来看是这样的，但是哪一条直线是最好的呢？我们可以看见最右边的线到两侧的点的距离是最大的，距离越大，对噪声的忍...

2018-08-14 14:25:46 521

原创 lightgbm原理和调参参考资料汇总

Lightgbm总的来说，看完论文Lightgbm提高速度主要就是‘压缩数据的数量和维度’，降低训练数据的量，其中goss降低了数据数量，efb降低了数据的维度，基于Histogram的算法加快了扫描数据的速度，基于leaf-wise的树的生成，在同等所有节点上找到信息增益最大的进行分裂，对于一些信息增益小的节点就不分裂，这样做减少开销。Lightgbm 的四个特点：一、 Gradi...

2018-08-07 13:48:02 10274

原创分解预测

根据某啤酒生产企业2000~2005年各季度的销售量（单位：万吨）数据绘制时间序列图，（1）观察观察啤酒销售量的构成要素。（2）预测2006年各季度的啤酒销售量。啤酒销量.csv(下载附件172 B) 我的答案　　　 ...

2020-12-25 22:12:00 665

原创时间序列-holt-winter指数平滑

winter指数案例数据是1980年1月到1994年8月葡萄酒生产商销售的容量不到1L的澳大利亚酒的总量。 year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1980 15136 16733 20016 17708 18019 19227 22893 23739 21133 22591 26786 ..

2020-12-25 22:04:51 1266

原创 excel方差分析

某银行规定VIP客户的月均账户余额要达到100万元，并以此作为比较各分行业绩的一项指标。现从三个分行1、2、3中，分别随机抽取4个VIP客户账户，用单因素方差分析判断三个分行此项业绩指标是否相同。第一步： VIP样本客户某银行月均账户余额(万元) ...

2020-12-25 21:12:31 2542 1

原创对应分析

手机好评率分析（对应分析) 　本案例是某电商平台的手机销售数据。数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。　本案例根据手机的评分和手机评论内容对手机的好评、中评和差评个数进行了统计。收集到的数据如下：　手机数据.xlsx(下载附件 16.98 KB) 　 ...

2020-12-24 23:13:40 1530

原创 KONO模型

某厨卫公司要开发一款燃气灶产品，列举出5个可作为卖点的功能属性：防风、定时、防干烧、不沾油、快速而准确地打火。该公司的产品设计人员不知道该主要开发哪项功能，分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法，并得到了公司的支持。假设你是小李 1.请你绘制KANO模型图来介绍对功能属性分类的思路；　 2.请你对燃气灶的防干烧功能属性设计调查问题； ...

2020-12-24 23:04:15 1104

原创 PSM模型

52 某中高档户外运动品牌为寻找合理的促销折扣力度，对 300 名消费者进行了调查，在回收的 264 份有效问卷中，对各档折扣分别持“比较便宜” 、 “太便宜了” 、 “还是有点贵” 、讲义P91 “还是太贵” 四种态度的人数做了统计，数据预览如下：折扣人数（人）人数比例累计人数比例 ...

2020-12-24 22:52:42 1810

层次分析法步骤层次分析法主要用于解决评价类问题（例如：选择哪种方案最好、哪位运动员或者员工表现得更优秀）解决评价类问题，首先想到：评价的目标是什么为了达到目的有哪几种可选方案评价的准则或者指标是什么前两个问题答案显然，第三个问题需要根据题目中的背景材料，常识以及网上搜集到的资料（知网、万方等网站优先）进行结合定下准则后确定指标所占权重。由于一次性考虑多个指标之间的关系往往考虑不周，所以要两两指标进行比较，最终根据两两比较结果来推算权重。在比较时会用到如下重要程度表首先比较得出指

2020-12-24 22:38:55 4631

原创巴斯模型

巴斯模型有三大基础假设:1、将消费者分为两类:创新消费者和模仿消费者。新产品的潜在采用者会受到大众媒体影响(外部影响)的采用者称为创新者；会受到口头传播影响(内部影响)的采用者为模仿者。2、模型中有三个参数:创新因子p,模仿因子q,以及整个生命周期产品的潜在销量N。3、在没有采用过该创新产品的情况下，发生初次购买行为的可能性与之前的购买者的数量呈线性关系。运用巴斯模型必须满足以下两个条件:1.企业已引入了该产品或该技术，并已观察到其几个时期的销售情况；2.企业尚未引入该产品或技术，但该产品或该技术在某些

2020-12-20 22:25:18 4467

原创 RFM模型

客户细分是客户关系管理的一个主要的组成部分，本文尝试以电商企业为研究对象根据其客户特点，提出了一种基于客户价值分析RFM模型，从而对客户进行分类，并对此结果进行动态的客户分析，以达到对不同的客户采取不同的客户服务的效果。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。RFM模型较为动态地层示了一个客户的全部轮廓，这对个性化的沟通.

2020-12-20 20:44:19 1275

原创金融经济学二十五讲--徐高

徐高教授写的这本书着实不错，对于初学的金融同学来讲非常有助于构建金融理论框架，曾经本科学习时，我就用过这本书，逻辑很棒，这本书把金融理论发展给串了下来，读完会有很多收获，真的强烈推荐。文末见下载链接！！！链接：网盘链接提取码：提取码...

2020-10-29 21:39:29 3392

原创 python 卡方检验

##卡方检验from scipy.stats import chi2_contingencyfrom scipy.stats import chi2table = [[10,20,30],[6,9,17]]print(table)stat,p,dof,expected = chi2_contingency(table) # stat卡方统计值，p：P_value，dof 自由度，expected理论频率分布print('dof=%d'%dof)print(expected)prob =

2020-10-25 14:41:32 869

原创用Navicat Premium 操作MySQL数据库

用Navicat Premium 操作MySQL数据库https://www.cnblogs.com/crazycode2/p/10205173.html

2020-10-14 21:25:51 208

原创 Python数据可视化常用案例

主体代码先附上：# !pip install brewer2mplimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snsimport warnings; warnings.filterwarnings(action='once')large = 22; med = 16; small = 12params = {'

2020-05-15 14:02:51 5258

原创可视化 --python 窗图

1 figure1.1 创建figure在上文中我们一直提到的figure指的是Figure类的实例化对象，当然我们一般不会直接去实例化Figure类，因为这样创建的Figure实例对象不能纳入序列中共同管理。matplotlib中提供了多种方法创建figure，其中属pyplot模块中的figure()方法最常用也最方便，下面我们来说说这个方法。figure方法参数如下：num：整型或字符串类型，可选参数，默认为None。这个参数课可以理解为是figure的身份标识，即id。当值为None时，

2020-05-15 13:40:05 1988

原创 python正则模块re

python正则模块re一.re模块内置的函数方法re.compile(pattern, flags=0)https://cdn.analyticsvidhya.com/wp-content/uploads/2019/06/seq2seq.gif)re.compile()方法可以把一个正则表达式编译成一个正则对象(PatternObj)，返回的正则对象是操作其他处理字符串方法的主体。p...

2020-03-23 22:11:46 494

原创 torch learning 1

torch tensor1.tensor的值valueimport torchx = torch.empty(5, 3)print(x)#tensor([[0., 0., 0.], [0., 0., 0.], [0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])x=torch.rand(3,requires_gr...

2020-02-17 16:30:57 255

转载 windows下配置pytorch环境的步骤。

转载，出处https://www.jianshu.com/p/07abfe5f82e1

2020-02-16 23:58:16 693

转载将多个txt中的文件读写到一个TXT文件中

import os def ListFileToTxt(dir,file,wildcard,recursion=False): ''' dir : 文件路径 file：找到的文件名写入路径 wildcard :查找的文件类型字符串 recursion : 查找方式：是否递归查找 ''' exts = wildcard.split(' ...

2019-10-01 13:46:27 533

原创 python xgboost 调参

def modelfit(model, X_train, X_test, y_train, y_test,useTrainCV, eval_metric='auc', cv_folds=4, early_stopping_rounds=20): #early_stopping_rounds 在20轮迭代里没有提升的话，就停止 print('Model...

2019-09-06 21:48:16 955

原创 mysql 增删改

##表的创建、更新、修改创建表Createtable actorActor_id smallint(5) notnull Primary key,First_name varchar(45) not null,Last_name varchar(45) not null,Last_update timestamp not nullDefault(datetime(‘n...

2019-08-26 11:26:05 133

原创 mysql事务1

##mysql数据库事务###1. 主键超键候选键外键主键：数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键，且主键的取值不能缺失，即不能为空值（Null）。超键：在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键，多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选键：是最小...

2019-08-26 11:19:38 140

原创 python 交叉验证1

# 2> 十折决策树算法from sklearn.tree import DecisionTreeClassifier #导入决策树模型from __future__ import divisionfrom sklearn.metrics import confusion_matrixp = 0.1 #设置训练集的比例N = 1/pcorrectRate = []for i ...

2019-08-25 22:06:29 2182

原创 python 时间序列缺失值

此处提供了三种数据填充方法：# 缺失值处理：补充缺失的数据# 三种方法：Lagrange插值法和Newton插值法以及Series自带的interpolate#1、Lagrange插值法和Newton插值法解决实际问题中关于只提供复杂的离散数据的函数求值问题，通过将所考察的函数简单化，构造关于离散数据实际函数f（x）的近似函数P（x），从而可以计算未知点出的函数值，是插值法的基本思路。#...

2019-08-25 22:02:07 4056 1

原创 python 回归问题特征筛选

import statsmodels.formula.api as smfimport pandas as pd def forward_selected(data, response): """前向逐步回归算法，源代码来自https://planspace.org/20150423-forward_selection_with_statsmodels/ 使用Adjuste...

2019-08-25 21:44:49 3189

原创 python 混淆矩阵绘图

y_predicted=bdt.predict(X_test)from sklearn.metrics import confusion_matrixfrom sklearn import cross_validation, metricsimport matplotlib.pyplot as pltplt.rc('figure',figsize=(5,5))cm = confusi...

2019-08-25 21:35:50 5838

原创 python EDA

#导入可能需要的包，应为我们先做的是初步的分析嘛，所以可视化的包和pandas，numpy ,scipy还是要导入的#https://www.kaggle.com/wkevin/house-prices/notebookimport plotly.offline as pyfrom plotly.graph_objs import Scatter, Layoutimport plotly...

2019-08-25 21:31:05 2824

原创 python 特征筛选

#特征初筛#如果是分类问题：对于分类变量，分析较多类的变迁分布是否差异明显，此类变量不删除#这里回归问题则不考虑def Remove_singleValue_var(df,var_list): # 变量取值同一性，删除 Sigle_var = [i for i in df if df[i].value_counts().so...

2019-08-24 10:56:34 1972

原创 python 文件读取 & 变量类型检查 & 缺失值分析

def read_file(filepath,filename): import os os.chdir(filepath) import pandas as pd data=pd.read_csv(filename) return data#变量类型检查def check_df_var_type(df): not_num_var=[] ...

2019-08-24 10:56:02 1270

原创 python psi指标

def Cal_Psi(score,pre_score,length=10): import math labels=['c'+str(i) for i in range(length)] True_out,bins=pd.qcut(score,q=length,retbins=True,labels=labels) bins[0] = bins[0]-0.001...

2019-08-23 22:03:08 6312 1

原创 python 特征筛选

from sklearn.feature_selection import VarianceThreshold,SelectKBest,chi2from sklearn.datasets import load_irisimport pandas as pdX,y = load_iris(return_X_y=True) X_df = pd.DataFrame(X,columns=l...

2019-08-23 22:02:16 1136 1

原创 python auc /precision_recall_vs_threshold 曲线绘制

from matplotlib import pyplot as plt%matplotlib inlinedef plot_precision_recall_vs_threshold (precisions, recalls, thresholds) :#precision_recall_curve函数的源码中，precision : array, shape = [n_thresho...

2019-08-23 21:47:56 2463 1

原创 python 参数选择基于非常规metric

#调参通过网格搜索完成from sklearn.datasets import make_hastie_10_2from sklearn.model_selection import GridSearchCVfrom sklearn.metrics import make_scorerfrom sklearn.metrics import recall_score,r2_scorefr...

2019-08-23 21:43:41 665

原创 python 分类任务特征筛选1

#检验一个变量，如果取较多数值的（>=90%）,如果较多类和较小类的label分布差异不明显，删除该变量def Remove_not_obvious(df,col,var_list,label='label'): '''df：数据样本''' '''col:检测变量''' '''label:标签''' '''vae_list:变量列表''' df_d...

2019-08-23 21:41:56 818

原创 python 绘制ks

from pandas import *import matplotlib.pyplot as pltdef PlotKS(preds, labels, n, asc): # preds is score: asc=1 # preds is prob: asc=0 pred = preds # 预测值 bad = labels # 取1...

2019-08-23 21:40:09 940

转载 kaggle比赛流程（转）

kaggle比赛流程（转）一、比赛概述不同比赛有不同的任务，分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。比赛通常持续 2 ~ 3 个月，每个队伍每天可以提交的次数有限，通常为 5 次。比赛结束前一周是一个 Deadline，在这之后不能再组队，也不能再新加入比赛。所以想要参加比赛请务必在这一 Deadline 之前有过至少一次有效的提交。一般情况下在提交后会...

2018-12-21 21:31:01 2841

原创 sql(1)

1、保存数据文件至对象select top 1000 * into tempfrom _tianyaPWDorder by newid() 2、选择select * from Student order by sdept,sage desc--前者升序，后者降序等于：select * from Student order by sdept,-sage 3、...

2018-11-04 15:17:54 283

原创可视化二seaborn

三、强大的seabornSeaborn是一个在Python中制作有吸引力和信息丰富的统计图形的库。它建立在matplotlib之上，并与PyData堆栈紧密集成，包括支持来自scipy和statsmodels的numpy和pandas数据结构和统计例程。 Seaborn旨在将可视化作为探索和理解数据的核心部分。绘图函数对包含整个数据集的数据框和数组进行操作，并在内部执行必要的聚合和统计模型拟合...

2018-09-04 13:02:29 959

转载可视化第一部分（简单的图形）

EDA之数据的可视化自己也没想到可视化拖了这么久，有些python包真的很强大，但学起来也很复杂，挺有难度的。所以我打算从我们经常遇到的数据框角度出发来做数据的可视化。一、pandas的可视化这种操作可以完成一些简单的可视化，可以直接传入kind类型或者直接在plot.后面加入需要的画图类型，传入需要的参数，对于数据框，散点图需要传入x，y，箱线图直接...

2018-08-27 19:10:01 2278

python正则模块re.pdf

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为"元字符"）组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

2020-03-23

An Introduction to Statistical Learning with Applications in R.pdf

An Introduction to Statistical Learning provides an accessible overview of the field of statistical learning, an essential toolset for making sense of the vast and complex data sets that have emerged in fields ranging from biology to finance to marketing to astrophysics in the past twenty years. This book presents some of the most important modeling and prediction techniques, along with relevant applications. Topics include linear regression, classification, resampling methods, shrinkage

2018-03-27

风控建模教程.pdf

1. 营销获客 2. 贷前风控 2.1 贷前审查 2.2 反欺诈 2.3 风控策略 2.4 风控建模 2.5 数据管理风控总监训练营 ......................................................................................................792 4 节课玩转信用评分卡模型....................................................................................792 如何搭建虚拟信用卡风控体系 ...............................................................................792 风控大牛手把手教你搭建企业级信用评分模型.....................................................792 2 大维度全面ᨀ升催收效率....................................................................................792 3 堂课，从 0-1 掌握基于数据驱动的风险定价核心...............................................792 如何打造现金贷产品的风控体系？........................................................................792 解密 P2P 网贷备案——专家教你如何正确应对备案..............................................793 区块链的前世今生及其应用 ...................................................................................793 区块链热潮下不可不知的法律风险：法律专家权威解读区块链、代币等案例与法律分析 .........................................................................................................................793 牌照决定生死，现金贷及 P2P 如何拿牌？............................................................793

2020-02-01

gcForest-master.zip

gcForest-master.zipgcForest-master.zipgcForest-master.zipgcForest-master.zip

2018-05-09

手写体数据

kaggle数据。The data files train.csv and test.csv contain gray-scale images of hand-drawn digits, from zero through nine. Each image is 28 pixels in height and 28 pixels in width, for a total of 784 pixels in total. Each pixel has a single pixel-value associated with it, indicating the lightness or darkness of that pixel, with higher numbers meaning darker. This pixel-value is an integer between 0 and 255, inclusive. The training data set, (train.csv), has 785 columns. The first column, called "label", is the digit that was drawn by the user. The rest of the columns contain the pixel-values of the associated image. Each pixel column in the training set has a name like pixelx, where x is an integer between 0 and 783, inclusive. To locate this pixel on the image, suppose that we have decomposed x as x = i * 28 + j, where i and j are integers between 0 and 27, inclusive. Then pixelx is located on row i and column j of a 28 x 28 matrix, (indexing by zero)

2018-03-27

xgboost论文.rar

XGBoost: A Scalable Tree Boosting System Tianqi Chen

2020-02-01

利用Python进行数据分析

【名人推荐】 “科学计算和数据分析社区已经等待这本书很多年了：大量具体的实践建议，以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。” ——Fernando Pérez　加州大学伯克利分校研究科学家， IPython的创始人之一【内容简介】还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程？本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。 •将IPython这个交互... (展开全部)

2018-03-02

谷歌深度学习笔记

谷歌深度学习笔记谷歌深度学习笔记谷歌深度学习笔记谷歌深度学习笔记谷歌深度学习笔记

2018-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人