机器学习
猫小咪编程
不忘初心
展开
-
机器学习特征工程基本流程
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import原创 2020-07-12 20:47:54 · 387 阅读 · 0 评论 -
scikit-learn实现ROC
ROC曲线import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as sddigits=sd.load_digits()x=digits.datay=digits.target.copy()y[digits.target==9]=1 #自定义分类标签y[digits.target!=9]=0训练集、测试集划分import sklearn.model_selection as smx_tria原创 2020-07-05 21:34:07 · 300 阅读 · 1 评论 -
网站该不该给用户贷款呢
1.数据预处理1.1去掉Url以及描述等内容import pandas as pdloans_2007 = pd.read_csv('LoanStats3a.csv', skiprows=1) #skiprows=1表示从第二行开始读half_count = len(loans_2007) / 2loans_2007 = loans_2007.dropna(thresh=half_count, axis=1)#thresh=n,即剔除NA值,保留下来的每一行,其非NA的数目>=nloan原创 2020-07-05 15:53:23 · 201 阅读 · 0 评论 -
机器学习--交叉验证
数据集划分对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据,而应该在其每一个类别的样本中抽取特定百分比作为训练数据。sklearn模块提供了数据集划分相关方法,可以方便的划分训练集与测试集数据,使用不同数据集训练或测试模型,达到提高分类可信度。数据集划分相关API:import sklearn.model_selection as msms.train_test_split(输入集, 输出集, test_size=测试集占比, random_state=随机种子)原创 2020-06-17 16:31:19 · 576 阅读 · 0 评论 -
随机森林分析共享单车的需求
随机森林相关API:import sklearn.ensemble as se# 随机森林回归模型 (属于集合算法的一种)# max_depth:决策树最大深度10# n_estimators:构建1000棵决策树,训练模型# min_samples_split: 子表中最小样本数 若小于这个数字,则不再继续向下拆分model = se.RandomForestRegressor(max_depth=10, n_estimators=1000, min_samples_split=2)案例:原创 2020-06-04 11:56:07 · 1926 阅读 · 2 评论 -
逻辑回归实现自动分类
人工分类特征1特征2输出3102511816405203514714-10………681510案例:import numpy as npimport matplotlib.pyplot as mpx = np.array([ [3, 1], [2, 5], [1, 8], [6, 4], [5, 2], [3, 5],原创 2020-05-25 22:36:51 · 446 阅读 · 2 评论