机器学习
文章平均质量分 81
zawdcxsa
自学 java ing..
展开
-
特征选择和特征抽取(学习小结)
1.特征抽取 V.S 特征选择 特征抽取和特征选择是DimensionalityReduction(降维)的两种方法,针对于the curse of dimensionality(维灾难),都可以达到降维的目的。但是这两个有所不同。 特征抽取(Feature Extraction):Creatting a subset of new features by combi转载 2017-09-23 22:30:30 · 1362 阅读 · 0 评论 -
Tesseract-OCR 字符识别---样本训练
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。地址为http://code.google.com/p/tesseract-ocr/。转载 2017-09-08 17:09:52 · 369 阅读 · 0 评论 -
Rocchio算法测试测试集时出错:Incompatible dimension for X and Y matrices: X.shape[1]
在白话大数据与机器学习一书,对照p222打例子:from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.datasets import fetch_20newsgroupsfrom原创 2017-09-25 21:07:36 · 5297 阅读 · 0 评论 -
python sklearn:聚类-k-means,聚类趋势,簇数确定,测定聚类质量
1.K-Means算法 由于具有出色的速度和良好的可扩展性,K-Means聚类算法算得上是最著名的聚类方法。K-Means算 法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平 均位置,然后重新划分其内部成员。 是算法计算出的超参数,表示类的数量;K-Means可以自动分 配样本到不同的类,但是不能决定究竟要分几个类。 必须是一个比训练集样本数原创 2017-09-21 20:34:23 · 21541 阅读 · 0 评论 -
matlab函数之bsxfun
bsxfun(fun,A,B)偶然间发现了这个函数,强大得不得了呀,它的作用是:对两个矩阵A和B之间的每一个元素进行指定的计算(函数fun指定);并且具有自动扩维的作用例如,A是一个4*3的矩阵,B是一个4*1的列向量,如果想要矩阵A的每一列都对向量B进行一些操作,比如,A的每一列的相应元素都要除以向量B中的相应元素,那么,比较原始的方法就是利用repmat命令,将向量B进行平铺,对它的每一...转载 2019-03-06 15:20:35 · 2079 阅读 · 0 评论