自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 如何处理调用位于anaconda中的python解释器时出现warning问题

在命令行输入python出现“Warning:This Python interpreter is in a conda environment, but the environment has not been activated. Libraries may fail to load. To activate this environment please see https://conda....

2020-03-17 18:14:37 1352

原创 广义线性模型----logit函数----logistic模型

通过广义模型三条假设构建出的模型都称之为广义线性模型。二分类服从伯努利分布,通过伯努利分布代入广义线性三条假设中,继而推出logit函数的表达形式,建立logistic模型(也称为对数几率模型)。参考文档:https://blog.csdn.net/shevchenkoniit/article/details/79593837https://blog.csdn.net/pi9...

2020-02-03 17:56:25 1737

原创 关于jupyter notebook无法自动跳转chrome浏览器的处理方法

本文参考:https://www.jianshu.com/p/c6e3a440b5e2这个步骤,u如果不行就改为r。

2019-12-13 13:50:16 1097 1

原创 徒手写代码之《机器学习实战》----K均值算法(1)(对地理坐标进行聚类)

对地理坐标进行聚类说明:将 places.txt 和 Portland.png 放在当前目录下。from numpy import *K-均值聚类支持函数"""1.选择聚类的个数,k。例如k=32.生成k个聚类中心点3.计算所有样本点到聚类中心点的距离,根据远近聚类。4.更新质心,迭代聚类。5.重复第4步骤直到满足收敛要求。(通常就是确定的质心点不再改变)创建 k 个...

2019-07-22 19:30:53 991

原创 徒手写代码之《机器学习实战》----PCA算法(1)(利用PCA对半导体制造数据降维)

利用 PCA 对半导体制造数据降维说明:将 secom.data 放在当前目录下。from numpy import *import numpy as npPCA 算法def pca(dataMat, topNfeat=9999999): #计算均值 meanVals = dataMat.mean(0) #去均值化,均值变为0 meanRemoved ...

2019-07-11 09:58:09 1629 1

原创 徒手写代码之《机器学习实战》-----线性回归算法(1)(预测鲍鱼的年龄)

实战这本书籍里线性回归算法讲了标准线性回归、局部加权线性回归、岭回归、LASSO回归、逐步前向回归。这几个回归的理论部分正在逐步梳理中,尽量本周内完成。预测鲍鱼年龄说明:将 abalone.txt 放在当前目录下。from numpy import *标准线性回归数据导入函数:def loadDataSet(fileName): #general function to...

2019-07-10 22:04:55 1256 1

原创 徒手写代码之《机器学习实战》-----树回归算法(1)(普通回归树与模型回归树的比较)

个人觉得线性回归和树回归问题,都比想象中要复杂,值得探索。树回归的理论部分不难,不过徒手写树回归算法倒是需要琢磨。另: 线性回归和树回归的理论部分在整理中普通回归树与模型回归树的比较说明:将 bikeSpeedVsIq_train.txt 和 bikeSpeedVsIq_test.txt 放在当前目录下。from numpy import *import matplotlib.pypl...

2019-07-10 21:06:08 413 1

原创 徒手写代码之《机器学习实战》---adaboost算法(2) (在一个较难数据集上应用AdaBoost)

在一个难数据集上应用 AdaBoost此较难数据即逻辑回归算法中从疝气病症预测病马的数据说明:将 horseColicTraining2.txt 和 horseColicTest2.txt 放在当前目录下。from numpy import *单层决策树生成的函数""" 单层决策树分类函数 Parameters: dataMatrix - 数据矩阵 ...

2019-06-21 19:06:02 1020 1

原创 徒手写代码之《机器学习实战》-----决策树算法(2)(使用决策树预测隐形眼镜类型)

使用决策树预测隐形眼镜类型说明:将数据集文件 ‘lenses.txt’ 放在当前文件夹from math import logimport operator熵的定义"""这部分是在用代码计算香农熵公式,即用代码写公式并计算结果"""def calcShannonEnt(dataSet): #数据集行数 numEntries = len(dataSet) ...

2019-05-27 15:27:31 443

原创 徒手写代码之《机器学习实战》----KNN算法(3)(手写识别系统项目)

手写识别系统说明:将数据集文件 ‘digits.zip’ 解压至当前文件夹定义将图像转换为向量函数# 导入程序所需要的模块import numpy as npimport operatorfrom os import listdir# 将32*32的二进制图像矩阵转换为1*1024向量def img2vector(filename): # 存储图片像素的向量维度是1x1...

2019-05-27 15:27:03 268

原创 徒手写代码之《机器学习实战》----KNN算法(2)(约会网站配对项目)

使用 k 近邻算法改进网站的配对效果说明:将数据集文件 ‘datingTestSet2.txt’ 放在当前文件夹# 导入程序所需要的模块import numpy as npimport operator定义数据集导入函数file2matrix函数实现的功能是读取文件数据,函数返回的returnMat和classLabelVector分别是数据集的特征矩阵和输出标签向量。de...

2019-05-27 15:26:43 195

原创 徒手写代码之《机器学习实战》----逻辑回归算法(1)(从疝气病症预测病马的死亡率项目)

从疝气病症预测病马的死亡率说明:将 horseColicTraining.txt 和 horseColicTest.txt 放在当前目录下。import numpy as npimport matplotlib.pyplot as plt定义 Sigmoid 函数def sigmoid(inX): return 1.0 / (1 + np.exp(-inX))定义一般的梯...

2019-05-26 16:39:30 703 1

原创 徒手写代码之《机器学习实战》---朴素贝叶斯算法(2)(代码更正)

之前的一篇手撕《机器学习实战》4—朴素贝叶斯算法,书中在计算先验概率和类条件概率时,把伯努利模型和多项式模型混用了,先验概率用伯努利模型而类条件概率用的既不是伯努利也不是多项式(有点像多项式模型)。在此,我把所有计算过程统一为运用伯努利模型。代码更正部分主要在以下两个函数中:def trainNB、def classifyNB使用朴素贝叶斯过滤垃圾邮件说明:将 email 文件夹放在当前目...

2019-05-20 01:40:15 341

原创 构建xgboost和lightgbm模型(某金融数据集)

导入各种包import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_score,f1_scorefrom xgboost import XGBClassifierfrom lightgbm imp...

2019-04-10 13:44:55 2980 2

原创 徒手写理论之-----关于梯度下降算法

个人笔记分享出来,梯度下降算法的总结。欢迎关注博客以及讨论。

2019-02-16 13:33:25 202

原创 徒手写理论之-----关于极大似然估计

若转载请附上本文博客地址,以下皆为原创。欢迎关注,欢迎粉,欢迎互相交流(可留言留下联系方式),欢迎提专业意见和指正错误,欢迎评论。谢谢您!...

2019-02-06 23:10:08 111

原创 徒手写理论之-----关于逻辑回归算法(公式推导)

写在草稿纸上的,字比较随性~~~参考文档:《西瓜书》吴恩达《机器学习》

2019-01-21 19:59:15 281 3

原创 徒手写理论之-----关于朴素贝叶斯算法

本来是写在word里的,直接截图贴上来了。笔记均为个人理解,以后会陆续写其它算法的理论,可能尝试手写或者继续用word或者用博客的latex代码。看情况和时间而定。以上所有笔记均为本人原创总结,如有转载请附上原文链接。欢迎持续关注本博客。...

2019-01-21 19:51:55 2410 2

原创 徒手写代码之《机器学习实战》---adaboost算法(1)

adaboost理论部分(公式)后期补充1.创建数据集"""此处不构建太复杂的数据集,不然可能后面用单层决策树时候,效果不好。因为用任何一个单层决策树都无法完全分开这五个数据"""import numpy as npdef loadSimpData(): datMat = np.matrix([[1,2.1],[2,1.1],[1.3,1],[1,1],[2,1]]) ...

2019-01-21 19:50:48 468

原创 徒手写代码之《机器学习实战》---朴素贝叶斯算法(1)

很久没写博客了,最近 忙着中期考核。补写一下朴素贝叶斯的代码部分,重点和难点在于计算条件概率。计算条件概率和类概率时,代码部分都使用了拉普拉斯平滑,主要是为了避免其它属性携带的信息被训练集中未出现的属性值“抹去”的现象。并且使用了对数的表示法代替直接计算若干个条件概率的乘积值,是因为如果连续的概率乘积会造成数值过小,python可能无法显示出来这样的数值。也叫做防止数值溢出。之所以对数表示法可行...

2019-01-15 15:59:29 366

原创 徒手写代码之《机器学习实战》-----决策树算法(1)

花了一天多时间,终于弄明白了决策树的完整代码,整个构树过程明白了。感觉蛮开心,爽歪歪。下面写一下我的学习步骤,我们可以一起来~~1. 首先我们用函数自己创建一个数据集#创建数据集def creatDataSet(): dataSet = [[1,1,'yes'], [1,1,'yes'], [1,0,'no'], ...

2018-12-15 00:35:38 371

原创 徒手写代码之《机器学习实战》----KNN算法(1)

最近是忙炸了抽空学习下K近邻算法,K近邻还有另一个名字,叫懒惰算法。因为它压根不用训练模型,直接上例子去预测。训练过程=测试过程优点 :精度高、对异常值不敏感、无数据输入假定。缺点 :计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。一、 先举个K-NN小例子二、 K-NN在约会网站配对使用实例#导入numpy库,operatorimport numpy as npimp...

2018-12-08 19:08:35 371

原创 徒手写代码之《机器学习实战》---基本库(1)

最近在看《机器学习实战》这本书,先简单实现下基本的几个库吧markimport numpy as npimport pandas as pd import matplotlib.pyplot as plt#创建一个seriesdic={"水果":"apple","温度":"warm"}se

2018-12-03 01:26:06 247

原创 探索五种机器学习模型最优参数(某金融数据集)

1.在网格搜索部分其实会过拟合,因为网格搜索优化参数的过程中已经看过了整个训练集的数据然后挑选出来最优参数,接着再用最优参数去拟合训练数据集(相当于建模之前已经偷看了)2.可以尝试分成三个数据集,训练数据集,验证数据集,测试数据集,用最优参数模型去拟合验证数据集。导入各种包import numpy as npimport pandas as pdimport matplotlib.pyp...

2018-11-24 23:36:22 1486

原创 构建网格搜索+交叉验证(lr模型)(某金融数据集)

导入各种包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score,precision_score,recall_scor...

2018-11-24 21:11:21 1068 2

原创 学习sklearn朴素贝叶斯

不同的贝叶斯假设数据的分布不同。高斯朴素贝叶斯"""多项式朴素贝叶斯分类器适用于具有离散特征的分类(例如,用于文本分类的字数)。多项分布通常需要整数特征计数。然而,在实践中,诸如tf-idf的分数计数也可以起作用。"""from sklearn import datasetsiris = datasets.load_iris()from sklearn.naive_bayes im..

2018-11-24 15:42:09 1147 4

原创 构建数据的归一化和标准化(某金融数据集)

导入各种包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score,precision_score,recall_scor...

2018-11-22 20:56:39 1758 4

原创 构建五种机器学习模型作比较(某金融数据集)

导入各种包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score,precision_score,recall_scor...

2018-11-20 22:48:59 3832

原创 如何解决jupyter notebook更换浏览器时需要输入密码的问题

使用anaconda中jupyter notebook的小伙伴可能会遇到一个问题,更换浏览器时跳出密码让你输入token  or password,导致你不能随心所欲更换浏览器使用。我刚才也遇到了类似问题,想从IE换成谷歌浏览器,结果不知道该在框框里面输入什么。网上解决教程查了很多,有的试了一半卡壳不对了。综合对比几个方案,终于设置好了。下面写一下我的设置步骤。仅供参考。(如果我的方法不行,可...

2018-11-17 19:01:56 11067 7

原创 构建决策树和svm模型(某金融数据集)

根据金融数据集作出的决策树和svm模型# 导入需要的包import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_split, GridSearchCVfrom sklearn.metrics import roc_...

2018-11-17 09:41:11 1704

原创 构建逻辑回归模型(某金融数据集)

刚开通csdn博客以下参考借鉴了各位优秀小伙伴的代码,感谢。构建逻辑回归模型

2018-11-15 22:18:46 1800

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除