自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 jieba分词

报错的原因是:跟当前文件名冲突,修改一下文件名就可以了。修改后import还是报错,改正办法是在anaconda中安装。主要功能一、分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模...

2019-01-04 22:12:58 238

原创 岭回归

一、满秩矩阵设A是n阶矩阵, 若r(A) = n, 则称A为满秩矩阵。但满秩不局限于n阶矩阵。若矩阵秩等于行数,称为行满秩;若矩阵秩等于列数,称为列满秩。既是行满秩又是列满秩则为n阶矩阵即n阶方阵。行满秩矩阵就是行向量线性无关,列满秩矩阵就是列向量线性无关;所以如果是方阵,行满秩矩阵与列满秩矩阵是等价的。二、中心化和标准化这里先介绍下数据的中心化和标准化,在回归问题和一些机器学习算法中通常...

2018-12-19 17:56:58 20075

原创 线性回归

一、线性回归在现实生活中普遍存在着变量之间的关系,有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示,还有一种是属于非确定的(相关),比如人的身高和体重,一样的身高体重是不一样的。线性回归一般用来做连续值的预测,预测的结果为一个连续值。因训练时学习样本不仅要提供学习的特征向量X,而且还要提供样本的实际结果(标记label),所以它是一种有监督学习。其中线性回归需要学习得到的是...

2018-12-18 22:04:42 338

原创 利用AdaBoost元算法提升分类器性能

https://blog.csdn.net/luanpeng825485697/article/details/78795504https://blog.csdn.net/c406495762/article/details/76262487https://blog.csdn.net/Yeoman92/article/details/73436632https://blog.csdn.net...

2018-12-17 21:56:16 539

原创 Logistic回归

和很多其他机器学习算法一样,逻辑回归也是从统计学中借鉴来的,尽管名字里有回归俩字儿,但它不是一个需要预测连续结果的回归算法。与之相反,Logistic 回归是二分类任务的首选方法。它输出一个 0 到 1 之间的离散二值结果。简单来说,它的结果不是 1 就是 0。癌症检测算法可看做是 Logistic 回归问题的一个简单例子,这种算法输入病理图片并且应该辨别患者是患有癌症(1)或没有癌症(0)。...

2018-12-14 14:14:39 337 1

原创 使用朴素贝叶斯算法过滤(中英文)垃圾邮件

使用朴素贝叶斯解决一些现实生活的问题时,需要先从文本内容得到字符串列表,然后生成词向量。下面这个例子中,我们将了解朴素贝叶斯的一个最著名的应用:电子邮件垃圾过滤。首先看一下使用朴素贝叶斯对电子邮件进行分类的步骤:收集数据:提供文本文件。准备数据:将文本文件解析成词条向量。分析数据:检查词条确保解析的正确性。训练算法:使用我们之前建立的trainNB0()函数。测试算...

2018-12-13 21:14:13 3172 1

原创 机器学习实战-朴素贝叶斯

朴素贝叶斯(naive Bayes)法是是基于贝叶斯定理 和特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合分布概率;然后基于此模型,对给定的输入x,再利用贝叶斯定理求出其后验概率最大的输出y。朴素贝叶斯以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。朴素贝叶斯数学表达是下面这个贝叶斯公式:实...

2018-12-13 15:49:20 502 1

原创 Adaboost算法原理分析和实例

AdaBoost算法过程AdaBoost是英文"Adaptive Boosting"(自适应增强)的缩写,它的自适应在于:前一个基本分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再次用来训练下一个基本分类器。同时,在每一轮迭代中,加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。Adaboost算法可以简述为三个步骤:...

2018-12-11 22:36:40 875

原创 决策树

kNN算法,虽然可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,而决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合,决策树的一个重要任务是为了数据所蕴含的知识信息,因此,决策树可以使用不熟悉的数据集合,并从中提取一系列规则,在这些机器根据数据集创建规则是,就是机器学习的过程。1 决策树的构造在构造决策树时,第一个需要解决的问题就是,如何确定出哪个特征在划分数...

2018-12-11 20:38:59 306

原创 手写字识别

Python 中os.listdir() 方法os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 ‘.’ 和’…’ 即使它在文件夹中。语法listdir()方法语法格式:os.listdir(path)path – 需要列出的目录路径,返回值为指定路径下的文件和文件夹列表。...

2018-12-07 14:03:25 259

原创 使用k-近邻算法改进约会网站的配对效果

语法:read()函数read(size):从文件当前位置起读取size个字节(如果文件结束,就读取到文件结束为止),如果size是负值或省略,读取到文件结束为止,返回结果是一个字符串。要读取的文件命名为1.txt1.txt的内容为:readline():readline()每次读取一行,当前位置移到下一行空格,换行都算作一个字符。readlines():读取整个文件所有行,保存在一...

2018-12-01 13:36:47 243

原创 机器学习实战-K近邻源码

机器学习实战-K近邻源码一、k近邻算法的一般流程1.收集数据2.准备数据:距离计算所需要的数值(最好是结构化的数据格式)<从文本中解析数据,归一化数值>3.分析数据:可以使用任何方法(不局限于Matplotlib画二维散点图等)4.训练算法:此步骤不适合KNN5.测试算法:计算错误率<数据集=训练集+测试集>6.使用算法:产生简单的命令行程序,然后每轮输入一些...

2018-11-29 10:34:50 200

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除