机器学习
文章平均质量分 91
笔尖微凉
算法工程师
展开
-
特征工程策略
文章目录常见做法特征交叉。类别特征常见做法单一变量的基础转换:x, x^2,sqrt x ,log x, 缩放如果变量的分布是长尾的,应用Box-Cox转换(用log转换虽然快但不一定是一个好的选择)你也可以检查残差(Residuals)或是log-odds(针对线性模型),分析是否是强非线性。对于基数比较大的数据,对于分类变量,创造一个表示每种类别发生频率的特征是很有用的。当然,也可以用占总量的比率或是百分比来表示这些类别。对变量的每一个可能取值,估计目标变量的平均数,用结原创 2021-02-26 09:35:29 · 187 阅读 · 0 评论 -
数据挖掘总结+探索性分析总结
文章目录1. 数据探索2. 数据探索模板3.数据挖掘4.数据建模1. 数据探索核心:1、质量分析2、特征分析(分布、对比、周期性、相关性、常见统计量)数据清洗:1、缺失值处理(通过describe与len直接发现,通过0数据发现)2、异常值处理(通过散点图发现)一般遇到缺失值,处理方式为(删除、插补、不处理)插补的主要方式有:均值插补、中位数、众数、固定值、最近数据、回归插补、拉格朗日插补、牛顿插补、分段插补等异常值一般视为缺失值、删除、修补、不处理等数据集成:把不同来源的数据放在一原创 2021-02-23 16:12:52 · 595 阅读 · 0 评论 -
机器学习算法--决策树算法
原创 2019-09-14 14:37:00 · 98 阅读 · 0 评论 -
机器学习算法--KNN最近邻算法
机器学习算法:第二章 knn算法2.1knn.pyfrom numpy import *import operator## def classify0(inX, dataSet, labels, k):# dataSet_Size = dataSet.shape[0]# diffMat = tile(inX, (dataSet_Size,1)) - dataS...原创 2019-09-11 13:35:27 · 195 阅读 · 0 评论 -
机器学习算法
嗯嗯嗯原创 2019-09-11 11:24:54 · 97 阅读 · 0 评论 -
信用智能评分2--对数据做特征工程并实现
消费者人群画像——信用智能评分(Group Image of Consumers-----Intelligent Scoring of Credits)大赛地址:https://www.datafountain.cn/competitions/337/datasets大赛介绍2019数字中国创新大赛(Digital China Innovation Contest, DCIC 2019)由...原创 2019-06-01 15:58:44 · 862 阅读 · 2 评论 -
信用智能评分1--初步实现
信用智能评分程序:#coding:utf-8import pandas as pdimport matplotlib.pyplot as pltimport numpy as np#导入数据data = pd.read_csv("train_dataset.csv",header = 0,error_bad_lines=False,encoding="gbk")# data = ...原创 2019-05-28 10:50:56 · 460 阅读 · 0 评论 -
多维线性回归sklearn实现
多维线性回归sklearn实现#coding:utf-8from mpl_toolkits.mplot3d import Axes3Dimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.linear_model import LinearRegressionx_data = np.array( [[1...原创 2019-05-18 18:32:09 · 3245 阅读 · 0 评论 -
朴素贝叶斯sklearn实现
朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,Multinomia...原创 2019-05-19 19:51:01 · 1113 阅读 · 0 评论 -
特征工程
特征工程的基础知识:https://www.zhihu.com/question/28641663/answer/41653367这篇文章讲的很好,可以借鉴,讲了上述的大部分方法还有程序。原创 2019-05-20 15:43:06 · 124 阅读 · 0 评论 -
聚类11-k-means算法的sklearn实现
一、原理步骤:原创 2019-05-20 19:57:39 · 389 阅读 · 0 评论 -
决策树-sklearn实现--基于IRIS(鸢尾花)数据集和泰坦尼克号数据集
一.本文首先采用基于IRIS(鸢尾花)数据集实现决策树:#coding:utf-8from sklearn import datasetsimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import treefrom sklearn.cross_validation import train_test_spli...原创 2019-05-24 15:27:52 · 4166 阅读 · 0 评论 -
SVM---sklearn实现多核
import numpy as npfrom sklearn.svm import SVRimport matplotlib.pyplot as plt%# % matplotlib inline(再jupyter中实现可加上)#自定义样本点rand,并且生成sin值x = np.random.rand(40,1)*5X_train = np.sort(x,axis = 0)prin...原创 2019-05-11 15:58:49 · 4406 阅读 · 0 评论 -
SVM-人脸识别
#from future import print_function #__future__模块,把下一个新版本的特性导入到当前版本,于是我们就可以在当前版本中测试一些新版本的特性#我的Python版本是3.6.4.所以不需要这个from time import time #对程序运行时间计时用的import logging #打印程序进展日志用的import ma...原创 2019-05-11 16:03:30 · 216 阅读 · 0 评论 -
数据挖掘流程总结及案例分析
数据采用:Kaggle上有这样一个比赛:城市自行车共享系统使用状况。https://www.kaggle.com/c/bike-sharing-demand可以下载#coding=utf-8import pandas as pddata = pd.read_csv("train.csv", header = 0,error_bad_lines=False)print(data.head(...原创 2019-05-25 21:11:13 · 3044 阅读 · 0 评论 -
数据挖掘流程总结及案例2
Kaggle泰坦尼克特征工程和模型融合:https://blog.csdn.net/a5139515/article/details/79714111原创 2019-05-26 20:31:45 · 511 阅读 · 0 评论 -
一维线性回归sklearn实现
一维线性回归sklearn实现#coding:utf-8from sklearn.linear_model import LinearRegressionimport numpy as npimport matplotlib.pyplot as plt#x轴数据x_data = np.arange(20)#y轴数据y_data = np.array([0.4, 0.8, 1.1,...原创 2019-05-18 14:21:07 · 1033 阅读 · 0 评论 -
多维线性回归sklearn实现-练习用sklearn.datasets数据
采用sklearn.datasets 中的 load_diabetes数据实现线性回归,并比较不同算法间的效果x_train,是375X10,y_train是375X1----注意#coding:utf-8import numpy as npfrom sklearn.datasets import load_diabetesfrom sklearn.utils import shuffl...原创 2019-05-23 17:22:28 · 1120 阅读 · 0 评论 -
多维线性回归sklearn实现-用UCI大学公开的机器学习数据来跑线性回归
1.获取数据对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。获取数据,定义问题 这里我们用UCI大学公开的机器学习数据来跑线性回归。数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant数据的下载...原创 2019-05-23 19:54:47 · 2034 阅读 · 0 评论 -
线性回归原理及python实现
概念线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。特点优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。缺点:对非线性数据拟合不好适用数据类型:数值型和标称型数据3.函数模型:模型表达:预测值和真实值之间存在误差:...原创 2019-05-06 15:18:41 · 690 阅读 · 0 评论