机器学习
宋建国
接下来要更新的内容有:Flask全栈知识
展开
-
调参小技巧-Kmeans聚类三大图像调参
1.拐点法(选取斜率突变点) 构造自定义函数,用于绘制不同k值和对应总的簇内离差平方和的折线图def k_SSE(X, clusters): # 选择连续的K种不同的值 K = range(1,clusters+1) # 构建空列表用于存储总的簇内离差平方和 TSSE = [] for k in K: # 用于存储各个簇内离差平方和 ...原创 2019-05-10 09:09:33 · 4059 阅读 · 2 评论 -
简单贝叶斯拼写检查器
首先需要准备一个语料库,就是有很多正确的英文文章那种就可以,尽量多种类别的文章多找一些。上代码import re, collections def words(text): return re.findall('[a-z]+', text.lower()) #去除特殊符号,只留下英文字符,并且转化为小写,只统计连着的英语字母形成的单词 def train(features): #设置...原创 2019-06-19 20:24:46 · 246 阅读 · 0 评论 -
PYTHON中XGBOOST的使用
1.数据读取利用原生xgboost库读取libsvm数据 import xgboost as xgb data = xgb.DMatrix(libsvm文件)使用sklearn读取libsvm数据 from sklearn.datasets import load_svmlight_file X_train,y_train = load_svmlight_file(libs...原创 2019-06-05 15:30:06 · 24405 阅读 · 2 评论 -
数据生成
参考此文章转载 2019-05-12 16:04:11 · 239 阅读 · 0 评论 -
SKLEARN--数据预处理
1.数据标准化(去均值和方差按比例缩放)标准化import numpy as npfrom sklearn import preprocessingdata = np.array([[ 1., 100., -7], [ 2., -50., 10], [ 0., 200, 200]]) #标准化去...原创 2019-05-12 10:52:50 · 318 阅读 · 0 评论 -
SKLEARN--特征提取(不完整)
1.从字典类型加载特征类 DictVectorizer 可用于将标准的Python字典(dict)对象列表的要素数组转换为 scikit-learn 估计器使用的 NumPy/SciPy 表示形式。虽然 Python 的处理速度不是特别快,但 Python 的 dict 优点是使用方便,稀疏(不需要存储的特征),并且除了值之外还存储特征名称。类 DictVectorizer 实现了 “one...原创 2019-05-12 09:06:53 · 317 阅读 · 0 评论 -
SKLEARN--交叉验证
1.K折交叉验证KFold 将所有的样例划分为 k 个组,称为折叠 (fold) (如果 k = n, 这等价于 Leave One Out(留一) 策略),都具有相同的大小(如果可能)。预测函数学习时使用 k - 1 个折叠中的数据,最后一个剩下的折叠会用于测试。>> import numpy as np>>> from sklearn.model_sel...原创 2019-05-11 19:53:03 · 403 阅读 · 0 评论 -
算法评价方式整理(理论+代码)--代码后续更新
1.绝对误差与相对误差2.平均绝对误差3.均方误差4.均方根误差5.平均绝对百分误差6.Kappa统计7.识别准确度8.识别精确度9,召回率10.ROC曲线11.混淆矩阵...原创 2019-05-11 14:41:09 · 492 阅读 · 0 评论 -
matplotlib可视化篇annotate(),text()--注释文本
1.matplotlib.pyplot.annotate()功能:在图中带有指向型文本注释信息,突显细节,官方项目地址,高级玩法,下面列出常用参数信息。text:str, 注释信息内容xy:(float,float), 箭头点所在的坐标位置xytext:(float,float), 注释内容的坐标位置weight: str or int, 设置字体线型,其中字符串从小到大可选项有{‘...原创 2019-05-11 14:41:19 · 10707 阅读 · 0 评论 -
调参小技巧-KNN算法K值图像选取法
# 导入第三方模块import numpy as npfrom sklearn import neighborsimport matplotlib.pyplot as pltdef KNN_valuechoise(X_tain, y_train, K_num): # 设置待测试的不同k值# K = np.arange(1,np.ceil(np.log2(Knowledge...原创 2019-05-10 09:45:53 · 4120 阅读 · 2 评论 -
调参小技巧-DBSCAN参数选取方法
利用循环迭代一些参数变量选取最适合的参数1.初始数据处理部分,请自行对照调整,此处仅作为保持流程完整使用。# 读入第三方包from sklearn import preprocessing# 选取建模的变量predictors = ['Birth_Rate','Death_Rate']# 变量的标准化处理X = preprocessing.scale(Province[predi...原创 2019-05-10 09:17:24 · 37931 阅读 · 17 评论 -
传统机器学习实现--自实现逻辑回归
1.导入运行库# 导入必要的运行包# 三大件import numpy as npimport pandas as pdimport numpy.randomimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_te...原创 2019-06-17 08:41:38 · 396 阅读 · 0 评论