机器学习
适用于从0基础开始的学习机器学习的伙伴
江湖无为
这个作者很懒,什么都没留下…
展开
-
python实现TF-IDF
import mathclass TFIDf: def __init__(self): self.doc = [ ['I','love','you', 'my','dear'], ['my','god','I','like','you'], ['good','morning'], ...原创 2020-04-01 15:56:15 · 418 阅读 · 0 评论 -
一文梳理AUC原理及python实现
auc介绍:AUC即ROC曲线下的面积,假设是一个二分类的问题,我们如果使用逻辑回归,需要设定一个阈值做分类,AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价roc曲线的横坐标和纵坐标分别是True Positive Rate(真阳率)、False Positive(伪阳率);TPRate的意义是所有真实类别为1的样本中,预...原创 2020-04-01 15:21:42 · 842 阅读 · 0 评论 -
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte
Anaconda 的Spyder中遇到的错误:这是因为默认的是utf-8编码格式中文字符的Unicode编码0x0800-0xFFFF之间,(utf-8包含了部分汉字)当你试图将该“中文字符”转成U码的utf-8时超出了其范筹而GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充,所以解决方法是将utf-8改为gbk ...原创 2018-10-22 22:33:55 · 23434 阅读 · 1 评论 -
逻辑斯蒂判断学生被录取的概率
具体代码请参照:https://github.com/RobertWang2/Python-/tree/master/ml-class-ex/machine-learning-ex2黑色的代表被录取;蓝色的代表未被录取; 绿色的是边缘条件; 重要代码解析: 好,我们看到数据有三列,第一、二列是单个学生的成绩,第三列是是否被录取,0未被录取,1录取。X = ...原创 2018-10-21 20:10:33 · 652 阅读 · 0 评论 -
线性回归模型预测利润
具体代码请参照GitHub:https://github.com/RobertWang2/Python-/tree/master/ml-class-ex/machine-learning-ex1本次是运用梯度下降法 红色的是数据集,蓝色的是线性回归方程 costFunction:代价函数,希望越小越好 红色的位置 就是理想的参数值 ...原创 2018-10-21 18:43:23 · 2658 阅读 · 0 评论 -
Python机器学习入门1.8《使用集成模型预测泰坦尼克号乘客的生还情况预测》
# -*- coding: utf-8 -*-"""Created on Fri Oct 19 08:11:26 2018@author: asus"""import pandas as pdtitanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#人工...原创 2018-10-19 09:11:03 · 990 阅读 · 1 评论 -
Python机器学习入门1.7《使用决策树模型预测泰坦尼克号乘客的生还情况》
泰坦尼克号乘客数据查验:#导入panadas用于数据分析import pandas as pd#利用pandas的read_csv模块直接从互联网读入数据titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#观察前几条数据,可以发现,数据种类各异,数值型、...原创 2018-10-18 23:39:38 · 2986 阅读 · 0 评论 -
Python机器学习入门1.1《良、恶性乳腺肿瘤预测》
本教程实用于0基础从事机器学习的人,OK,我们主要是用Python实现机器学习的,所以,你应该花三天时间去看看Python,然后我会有清晰的步骤与每个步骤错误提示,如果你还有什么问题,可以回复我。这里提供一个Python简洁版安装教程:Python入门第一天然后我们就开始我们的基础实践,希望一步一步的执行能到帮到你。首先下载数据,方便我们以后处理。Datasets在你正确安装完an...原创 2018-10-11 15:28:08 · 2205 阅读 · 2 评论 -
Python机器学习入门1.2《良、恶性乳腺肿瘤预测》
在看这篇博客之前,你应该先看我的上一篇博客Python机器学习入门1.1《良、恶性乳腺肿瘤预测》监督学习之分类学习:线性分类器: 这里用到的是Logistic函数,在本篇中不打算细讲,有兴趣可以去了解。First:良、恶性肿瘤数据预处理我们进入数据的网页查看:https://archive.ics.uci.edu/ml/machine-learning-databases/brea...原创 2018-10-14 21:05:00 · 1406 阅读 · 0 评论 -
Python机器学习入门1.3《使用支持向量机对手写体数字图片分类》
本次介绍的内容是:支持向量机分类器(Support Vector Classifier) 决定直线位置的样本并不是所有的训练数据,而是其中的两个空间间隔最小的两个不同类别的数据点,而我们把这种可以用来真正帮助决策最线性分类模型的数据点叫做“支持向量”。 手写体数据读取代码样例:#从sklearn.datasets里导入手写体数字加载器from sklearn.data...原创 2018-10-16 21:10:40 · 1964 阅读 · 4 评论 -
Python机器学习入门1.4《逻辑斯蒂高级优化》
基于octava/Matlab语言options = optimset('GradObj','on','MaxIter','100');initialTheta = zeros(2,1);[optTheta,functionVal,exitFlag] = fminunc(@costFunction,inititalTheta,options);costFunction函数是自定义函数...原创 2018-10-17 20:59:59 · 364 阅读 · 0 评论 -
Python机器学习入门1.5《使用朴素贝叶斯分类器对20类新闻分类》
读取20类新闻文本的数据细节#从sklearn.datasets 里导入新闻数据抓取器fetch_20newsgroupsfrom sklearn.datasets import fetch_20newsgroups#需要及时从互联网下载数据news=fetch_20newsgroups(subset='all')#查验数据规模和细节print (len(news.data))...原创 2018-10-17 23:29:02 · 4393 阅读 · 1 评论 -
Python机器学习入门1.6《使用K近邻分类器对鸢尾花数据进行类别预测》
读取Iris数据集细节资料:#导入iris数据加载器from sklearn.datasets import load_iris#使用加载器读取数据并存入变量irisiris=load_iris()#查验数据规模#print(iris.data.shape)#查看数据说明#print(iris.DESCR)对Iris数据集进行数据分割:#对数据进行随机分割...原创 2018-10-18 10:24:46 · 956 阅读 · 0 评论