python
文章平均质量分 61
葛琪琪
我爱阳光
展开
-
python Anaconda安装pandas,xgboost方法整理
方法一(亲测可用,直接了当):鉴于题主用Windows10,那就推荐亲测的方法:第一,下载安装一个python编辑器,以PyCharm为例。第二,打开PyCharm设置,如图:选择添加包,安装包,完成。(转载来自知乎,如何优雅的安装Python的pandas? - 陈尽之的回答 - 知乎https://www.zhihu.com/question/4原创 2017-11-06 14:46:48 · 14312 阅读 · 0 评论 -
ROC曲线
ROC曲线越接近左上角,该分类器的性能越好。而作为一个数值,对应AUC更大的分类器效果更好。原创 2018-01-02 13:04:01 · 353 阅读 · 0 评论 -
中文分词:python-jieba-安装及使用样例
前言(关于分词)最开始知道jieba是(为了完成Data Mining课程作业)在收集新闻文本分类的资料的时候:新闻上的文本分类。通过传统的机器学习方法和深度学习方法来做新闻短文本分类,并对这些方法进行对比。同时收集到的其他资料还有:Weka初体验——中文文本分类数据挖掘 文本分类(一) 综述在数据挖掘 文本分类(一) 综述中,知道了另一个分析工具:中科院张华平原创 2018-02-04 16:26:40 · 14588 阅读 · 0 评论 -
KNN / SVM 手写数字识别-PCA降维
一. 问题分析采用机器学习算法对usps和mnist两个数据集完成手写数字识别任务。1.1. 数据集介绍MNIST MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST)。训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普...原创 2018-04-16 09:41:23 · 3123 阅读 · 0 评论 -
机器学习-交叉验证 : python数据集划分
模型选择的两种方法:正则化(典型方法)、交叉验证。这里介绍交叉验证及其python代码实现。交叉验证如果给定样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分为3部分,分为训练集、验证集和测试集。训练集:训练模型验证集:模型的选择测试集:最终对模型的评估在学习到不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它进行模型选择也是有效的。在许多实际应用中数据...原创 2018-04-16 10:45:22 · 6451 阅读 · 0 评论