![](https://img-blog.csdnimg.cn/20200620220326887.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 74
机器学习基础
Lucius_Keep_Going!
新人还请各位多多批评指正!
展开
-
关于spac 'en'错误(主要是服务器一直搞不好的看过来)
电脑导入spacy和模型1.本地安装模型失败的解决方法直接看官网的方法,看你是conda/pip还是什么操作,很简单就安装好了。语言模型官网上提供了三种,普通的安装方法在此就不说了,其他博主写的很详细去看看。说一个终极方法,直接去官网下载模型包,然后在命令窗口进行安装,一定能够成功。详细操作自己搞就可以了。2.服务器安装模型失败一直报错找不到模型,请大家仔细看他报错的文件,最后都指向了...原创 2020-01-07 16:53:34 · 242 阅读 · 0 评论 -
任务一:基于机器学习的文本分类
NLP小白入门,在实现复旦NLP组的新生入门任务,在此做一个记录。废话不多说,直接上代码。注释掉的部分是没有用到批处理时的代码,可忽略。1.数据处理数据是来源于国外网站的电影评论,数据集kaggle上都有,导入进来之后。对每条评论进行分词,标准化处理(虽然数据集好像已经是被清洗好了的)。处理好了之后使用词袋模型(BOW)形成词袋,然后对数据进行one-hot。这是数据处理的流程。细节一:分...原创 2019-08-24 16:55:24 · 3322 阅读 · 8 评论 -
PCA
一、PCA简介相关背景上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许...转载 2019-03-19 11:10:03 · 149 阅读 · 0 评论 -
White noise
原创 2018-12-21 10:38:36 · 6058 阅读 · 0 评论 -
怎样理解时间序列的“平稳性”?
一、问题的提出经典计量经济模型常用到的数据有三种类型:1.时间序列数据(time-series data) ,亦即单一变量按时间的先后次序产生的数据。2.截面数据(cross-sectional data) ,亦即多个变量在同一个时间点(截面空间)上产生的数据。3.平行/面板数据(panel data/time-series cross-section data) ,也称时间序列截面数据...原创 2018-12-10 20:40:01 · 34746 阅读 · 5 评论 -
算法数学知识补充
什么是KKT条件:https://www.cnblogs.com/ooon/p/5721119.html原创 2018-11-11 10:17:48 · 404 阅读 · 0 评论 -
Regression
写在开头 最近在学习一些关于机器学习的基础算法,结合学习Peter Harrington的《机器学习实战》和李航老师的《统计学习方法》两本书以及网上前辈的笔记,写下了以下的学习过程。 代码环境:Pytharm/Python3.7 内容有参考也有自己的想法,由于自己的理解不足,文章肯定存在很多错误,还恳请各位批评指正。一、线性回归(linear regression)1. 基本概念...原创 2018-12-03 16:45:38 · 269 阅读 · 0 评论 -
AdaBoost
写在开头 最近在学习一些关于机器学习的基础算法,结合学习Peter Harrington的《机器学习实战》和李航老师的《统计学习方法》两本书以及网上前辈的笔记,写下了以下的学习过程。 代码环境:Pytharm/Python3.7 内容有参考也有自己的想法,由于自己的理解不足,文章肯定存在很多错误,还恳请各位批评指正。 这张图片清晰的给出了AdaBoost算法的思想,首先构建弱分类器...原创 2018-11-24 11:29:13 · 119 阅读 · 0 评论 -
SVM(support vector machines)
写在开头 最近在学习一些关于机器学习的基础算法,结合学习Peter Harrington的《机器学习实战》和李航老师的《统计学习方法》两本书以及网上前辈的笔记,写下了以下的学习过程。 代码环境:Pytharm/Python3.7 内容有参考也有自己的想法,由于自己的理解不足,文章肯定存在很多错误,还恳请各位批评指正。 个人理解的回归就是发现变量之间的关系,也就是求回归系数,经常用回...原创 2018-11-12 11:23:56 · 116 阅读 · 0 评论 -
Logistic回归
写在开头 最近在学习一些关于机器学习的基础算法,结合学习Peter Harrington的《机器学习实战》和李航老师的《统计学习方法》两本书以及网上前辈的笔记,写下了以下的学习过程。 代码环境:Pytharm/Python3.7 内容有参考也有自己的想法,由于自己的理解不足,文章肯定存在很多错误,还恳请各位批评指正。 个人理解的回归就是发现变量之间的关系,也就是求回归系数,经常用回...原创 2018-11-05 10:46:59 · 240 阅读 · 0 评论 -
K-NN(K-Nearest Neighbor)
一 . K-近邻算法(KNN)概述最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。 KNN是通过测量不同特征值之间的距离进行分类。它的思路...原创 2018-10-24 16:40:25 · 183 阅读 · 0 评论 -
Decision Tree
一. 构造决策树 基于之前的了解,在构造决策树首先需要选取特征将原始数据划分为几个数据集,那么第一个问题就是当前数据的哪个特征在划分数据分类时起决定性作用,所以必须评估每个特征。进而通过特征将原始数据就被划分为几个数据子集,这些数据子集分布在第一个决策点的所有分支上,如果分支上的所有数据为同一类型,则划分停止,若分支上的所有数据不是同一类型,则还需要继续划分,直到所有具有相同类型的数据均在一个...原创 2018-10-26 17:59:07 · 419 阅读 · 0 评论 -
Naive Bayes
贝叶斯分类器源码import numpy# -------------------创建实验样本------------------def loadDataSet(): # 用于训练算法的数据,classVec用于注明包含哪些词就属于侮辱语言 trainSet = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'pl...原创 2018-11-01 15:50:24 · 2164 阅读 · 0 评论