自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MISS ZY

数据挖掘路上的点滴积累

  • 博客(22)
  • 收藏
  • 关注

原创 Idea部署Tomcat入门案例(环境配置,常见错误以及客户端向服务端发送请求的方式)

1.首先创建web项目,如果创建时忘记勾选creat web.xml选项,,那么就不会出现web-inf文件夹,需要手动添加,添加如下:2.页面和jsp资源都必须放在web目录下,没有的话就自己手动创建文件夹,只能叫这个名字,不然tomcat 会找不到,报The requested resource is not available错误。3.web.xml为配置文件,servlet...

2020-04-14 16:23:12 406

原创 python数据挖掘--评估指标

数据挖掘路上滴滴点点,记录下常用评价指标。持续更新。Acc、f1、recall、precisionmetrics_lr = { 'accuracy': accuracy_score(prediction_lr, Y_test), 'f1': f1_score(prediction_lr, Y_test, average="macro"), 'recall': rec...

2019-06-07 09:19:54 821

原创 python数据挖掘--超参寻优篇(附方法和代码)

数据挖掘路上点点滴滴,记录超参优化的常用手段,最近在学习自动化超参寻优,持续更新。1.K折交叉验证参数from sklearn.model_selection import cross_val_score,KFold定义交叉验证规则n_folds = 5rmse=[]def rmsle_cv(model): kf = KFold(n_folds, shuffle=...

2019-06-07 09:17:50 1768

原创 python数据挖掘---建模篇(附代码)

数据挖掘路上点点滴滴,记录下机器学习常用模型(附代码),持续更新数据划分x_train1, x_test1, y_train1, y_test1 = train_test_split(x, y, train_size=0.8, random_state=14)数据标准化树类模型不需要,使数据符合N(0,1)分布。很多ML的算法要求训练的输入参数的平均值是0并且有相同阶数...

2019-06-07 09:02:38 5050

原创 python数据挖掘--特征工程篇(附代码)

记录数据挖掘路上遇到的常用特征工程方法和技巧(附代码),方便自己,方便他人,持续更新。1.哑编码对某一列数据进行pandas自带的(定性数据哑编码,定量数据二值化),并附上名字pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')2.卡方特征选择从已有的特征中选择出影响目标值最大的特征属性常用方法:{ 分类:F统计量、卡...

2019-06-07 08:49:54 960

原创 python数据挖掘---数据清洗篇(附代码)

在数据挖掘路上点点滴滴,遇到的数据清洗的一些常用技巧和方法,记录下来,并持续更新。1.01读取数据不要索引,去掉字段前后空格train=pd.read_csv('train.csv',skipinitialspace=True,index_col=0)1.02缺失值处理按列统计缺失值比例,决定去除或者填充all_missing=all_dummies.isnul...

2019-06-07 08:42:27 5097

原创 机器学习系列(1)--最全算法概述(附案例)

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。1.线性回归定义:一种回归模型...

2019-02-22 19:49:04 205

原创 一文了解卷积家族

参考:https://cloud.tencent.com/developer/news/320941http://blog.csdn.net/zouxy09/article/details/9993371/http://www.36dsj.com/archives/24006http://news.hexun.com/2016-08-08/185382572.htmlhttp:...

2019-02-17 16:43:29 223

原创 tensorboard可视化

学习笔记参考:https://blog.csdn.net/sinat_29957455/article/details/816386501.使用tf.summary模块:tf.summary.scalartf.summary.graph2.任何地方都可以记录3.xshell启tensorboard -logdir=xxxx,得到链接4.浏览器里打开5.注意全连接成看...

2019-02-12 10:32:05 126

原创 python系列(4)---matplotlib库基础知识

   

2019-01-29 21:13:50 186

原创 python系列(3)---numpy库基础知识

    一、数组的创建:1.常规创建:np.array()2.特殊数组的创建:np.ones(),np.zeros(2,4)创建2行4列的0数组,np.eyes(),单位矩阵dtype:指定数据类型 zeros:创建数据全为0 ones:创建数据全为1 empty:创建数据接近0  3.通过函数创建:np.arange(10,20,2),区间1...

2019-01-29 20:55:29 1015

原创 深度学习系列--资料篇

学习过程中用到的资料整理如下:书籍 网站 课程 论文后续还会慢慢补充。 1本《深度学习》“圣经”:http://www.deeplearningbook.org/10G深度学习训练数据集:https://pan.baidu.com/s/1HpadkH84YlqFxZ-CJ0WziQ,密码: kzkh20+深度学习论文集合:https://pan.baidu.com/s/...

2019-01-27 20:04:09 310

原创 python系列(1)---基础知识

基础语法(一  )一、python字符串1.运算符 2.基本数据类型 3.字符串基本运算 4.字符串常用函数  二.python数据结构1.list方法(静态)和操作(动态)创建list()或[]  2.列表推导式:利用其它列表创建新列表,类似for循环,格式:new1=[exper for value...

2019-01-27 19:58:41 222

原创 python系列(2)---pandas库基础知识

pandas是数据清洗常用包,知识点包括数据的创建、数据的操作、数据的计算、数据的索引。脑图如下。一、数据创建:Series,DataFrame1.Series创建的两种方式 :一维数组    或者  字典 2.Series运算 3.dataframe创建的两种方式:数组    或者  字典二、数据的常用操作1.读取文件pd.read_csv...

2019-01-25 21:10:43 292

原创 推荐系统(二)-协同过滤

 1.协同过滤(CF, Collaborative Filtering)也叫做基于近邻的推荐算法,主要思想是:利用已有的用户群过去的行为或者意见预测数据,根据和当前用户/当前物品比较相似的近邻数据来产生推荐结果,和KNN算法的思想比较类似。主要应用场景是在线零售系统,目的是进行商品促销和提高销售额。算法输入是一个用户-物品评分矩阵,输出的数据一般有两类:当前用户对物品喜欢和不喜欢程度的预测数值...

2018-12-18 18:26:09 489

原创 推荐系统(一)

1.背景推荐系统是利用网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买的过程。而个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。2.分类推荐系统(Recommender System, RS)是向用户建议有用物品的软件工具和一种技术。RS分为个性化推荐和非个性化推荐两大类:个性化推荐是指基于用户对商品的偏好信息来进...

2018-12-18 17:54:51 426

原创 SQL初步语法

#Hello worlduse world;Select ID,NAME,COUNTRYCODE,DISTRICT,POPULATIONFROM world.city LIMIT 10;#了解mysqlshow databases;show tables;show columns from city;#排序use world;Select ID...

2018-12-17 14:55:25 140

原创 VMware虚拟机+centOS(linux系统)重置密码

自己折腾虚拟机,各种配置完成之后第二天忘记密码,难受,香菇,所以把虚拟机重置密码记录下来。环境:VMware虚拟机+centOS(linux系统)1.重启虚拟机2.点击e,进入编辑模式3.将光标一直移动到 LANG=en_US.UTF-8 后面,空格,再追加init=/bin/sh。4.按住CTRL+X执行进入,输入命令passwd root,根据提示输入2次一样的新密码。...

2018-11-27 16:30:44 1713

原创 最全SPARK环境(集群、windows、linux)的搭建

Spark集群环境搭建    -0. 前提:配置好Hadoop和JAVA的开发环境        -1. 上传Spark和Scala压缩包(到~/software文件夹中)        -2. 解压压缩包    $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6\(cdh版本已经编译好的\).tgz -C ~/modules/...

2018-11-17 09:18:16 2311

原创 傻瓜都能会的假设检验

统计推断的基本问题:1.估计问题2.假设检验问题本文先讲假设检验的问题,估计问题会在后面的文章中讨论。假设检验由来: 总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的的某些未知特性,提出关于总体的假设。这里重点讨论对于正态总体提出数学期望等于u的假设。定义:有样本推断总体的一种方法步骤:1.根据实际问题的要求,提出原假设Ho及备择假设H1;     ...

2018-07-11 09:23:13 315

原创 区分BGD,SGD,MBGD

BGD(批量梯度下降):更新每一参数都用所有样本更新,m=all,更新100次遍历多有数据100次SGD(随机梯度下降):更新每一参数都随机选择一个样本更新,m=1MBGD(小批量梯度下降):更新每一参数都选m个样本平均梯度更新,1<m<all总结:SGD训练速度快,大样本选择;BGD能得到全局最优解,小样本选择;MBGD综合二者选择。  ...

2018-07-11 08:15:36 1422

原创 机器学习分类问题--信贷审批

之前在某乎上看见有人说银行信贷审批的职业是越老越值钱,本文基于客户过往信贷数据角度进行机器学习训练,来探讨该职位未来是否还可能存在,欢迎吐槽我没有考虑信审人员懂产品、懂客户、懂市场,懂流程、懂风险,只是从机器学习角度来考虑,基于信贷数据进行用户信贷分类,使用Logistic算法和KNN算法模构建型。 一、相关理论 1.1 机器学习知识点: KNN:K近领算法,训练集中每一个样...

2018-07-01 09:32:54 2018 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除