Notes
文章平均质量分 58
code_caq
机器学习、计算机视觉爱好者。
努力学习的新人!
展开
-
Notes—Latent Dirichlet Allocation,LDA主题模型
【数学之美】 ……未完待续…… ref: 1、★★★★★★★★★★通俗理解LDA主题模型★★★★★★★★★★ 2、主题模型-LDA浅析 3、搜索背后的奥秘――浅谈语义主题计算 4、主题模型TopicModel:主题模型LDA的应用 5、David M. Blei, AndrewY. Ng, Michael I. Jordan, LatentDirichlet Allocation, ...原创 2017-06-03 13:48:02 · 802 阅读 · 0 评论 -
RDD和Dataframe
RDD是一个分布式的无序的列表。RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。举例如下:例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑转载 2017-06-15 10:07:10 · 679 阅读 · 0 评论 -
Notes—MySQL(cmd)
……未完…… 0、安装1、Connect to MySQL mysql -h 主机地址 -u 用户名 -p 用户密码 mysql -u root -p; Enter password:****2、退出 exit、 quit3、MySQL初探与创建表 3.1 显示数据库列表 show databases; 显示库中的数据表: use mysql; show tables;原创 2017-06-06 19:05:04 · 363 阅读 · 0 评论 -
Notes—Random Forest-feature importance随机森林对特征排序
……未完待补充…… ref:http://blog.datadive.net/selecting-good-features-part-iii-random-forests/two methods: 1.Mean decrease impurity 大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征排序,然后整个森林取平均2...原创 2017-07-01 16:10:23 · 16325 阅读 · 0 评论 -
Notes—Dense Vector and Sparse Vector
……未完待补充…… ref: 1. Spark官方文档 2. http://bbs.csdn.net/topics/391002544在spark.ml.linalg里有两种vector——DenseVector 和 Sparse Vector,两者都继承于Vectors1.两者区别 DenseVector: a value arraydef: Vectors.dense(values:原创 2017-07-02 12:40:21 · 4027 阅读 · 0 评论 -
sql之left join、right join、inner join的区别
left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: 表A记录如下: aID aNum 1 a20050111 2 a20050112 3 a20050113 4转载 2017-07-11 14:51:16 · 348 阅读 · 0 评论 -
Notes—LDA中的gamma函数和几个分布
ref:http://blog.csdn.net/v_JULY_v/article/details/41209515(详细推导见该链接) LDA模型中用到的数学知识:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念:共轭先验和贝叶斯框架两个模型:pLSA、LDA(在本文第4 部分阐述)一个采样:G转载 2017-06-03 10:55:24 · 2027 阅读 · 0 评论 -
Notes—Tesseract-OCR使用
1.下载tesseract-ocr-setup-3.02.02.exe 直接安装,简单方便,安装选项默认。安装后的目录里面的文件如下: 2.将要识别的文字图片放在目标文件夹中,如D盘。在D盘中Shift+右键打开命令行。因为环境变量在安装的时候就已经自动配置好了,所以在命令行下直接输入tesseract,如果显示下图信息则表示安装成功。 3.对测试的文字图片进行识别,命令行输入 tesser原创 2017-06-05 11:37:26 · 500 阅读 · 0 评论 -
大规模机器学习:SGD,mini-batch和MapReduce
因为不知道原文的链接,在此向原作者表达歉意。大规模机器学习注:本文内容来自网友的博客及Andrew NG在coursera上的机器学习公开课,感兴趣的同学可以去看原始视频,此处不提供链接机器学习在这几年得到快速发展,一个很重要的原因是 Large Dataset(大规模数据),这节课就来介绍用机器学习算法处理大规模数据的问题。关于数据的重转载 2017-06-16 12:25:35 · 775 阅读 · 0 评论 -
Notes—Convolutional layer
(this img is made by myself) note: Convolutional layer: convolve the filter with image,slide over the image spatially,computing dot products.stride:stepzerp-padding: (1)reserve feature map’s resolu原创 2017-05-21 19:48:35 · 444 阅读 · 0 评论 -
One-Hot encoder独热编码
ref:http://www.cnblogs.com/daguankele/p/6595470.html1、什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。 在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性或者其他这三种值,如何对这三个值进行数字转载 2017-07-07 20:57:44 · 1433 阅读 · 0 评论