bra_ve-CSDN博客

原创 Deep Learning in Search & Recommendation

2019-02-13 11:35:15 845

原创 [总结]ROC曲线、AUC、准确度、召回率

ROC曲线、AUC、准确度、召回率…混淆矩阵 Label : 1 Label : 0 Estimation: 1 TP(True Positive) Estimation: 0 FN(False Negative)- 准确率和召回率(Precision & Recall)准确率为预测为正的人当中有多少预测正确了。 Pre...

2018-09-06 15:00:24 9677

原创 Machine Learning Series No.10 -- PCA

PCA算法PCA算法是一种降维算法，其主要思想有两种：1.使得降维以后的超平面离原始的样本点尽可能的近。2.使得样本点在降维以后的超平面的投影尽可能的分开。注意：PCA减少基底的数目，从而减少数据维度。坐标系的变换设新坐标系的正交基为η=(η1,η2,⋯,ηm)η=(η1,η2,⋯,ηm)\eta = (\eta_1,\eta_2,\cdots,\eta_m)，原始...

2018-09-06 14:56:59 204

原创 Machine Learning Series No.8 -- CRF(Conditional Random field)

条件随机场判别模型常用场景：词性标注。CRF可以考虑相邻数据的标记信息。概率图模型概率图模型（Probabilistic graphical model，PGM）是由图表示的概率分布。概率无向图模型概率无向图模型（Probabilistic undirected graphical model）又称马尔可夫随机场（Markov random field）...

2018-09-06 14:51:35 484

原创 Machine Learning Series No.7 -- Max Entropy

最大熵模型1.它是一个判别模型，最终目的是为了建模p(y|x)p(y|x)p(y|x)。2.原理认为学习模型时，认为条件熵最大的模型是最好的模型。其原理可由以下博客说明，其隐含的意思是指最好的模型是在满足已有约束的条件下，不做任何主观臆测的模型是最好的模型。https://www.cnblogs.com/ooon/p/5677098.html3.推导Ep~(...

2018-09-06 14:48:09 141

原创 Machine Learning Series No.9 -- HMM(Hidden Markov Model)

隐马尔科夫模型(Hidden Markov Model, HMM)1.生成模型，对p(x,y)p(x,y)p(x,y)进行建模2.符号说明 SYMBOLS meanings Q{q1,q2,⋯,qn}Q{q1,q2,⋯,qn}Q\{q_1,q_2,\cdots,q_n\} 可能的状态集合 V{v1,v2,⋯,vn}V{v1,v2,⋯,vn}V\...

2018-09-06 14:40:49 218

原创 Machine Learning Series No.6 -- EM algorithm

EM算法1.直观理解通俗理解：https://blog.csdn.net/v_JULY_v/article/details/81708386通俗的理解看出就是EM算法由于不知道隐变量的分布，先给出参数的随机初始值，然后根据参数，去得到隐变量的分布，然后根据隐变量和观测变量的共同分布基于最大似然去重新估计参数，知道参数稳定。2.数学推导极大似然估计： L(θ)=∑ilo...

2018-08-29 20:03:05 157

原创 Machine Learning Series No.5 -- Boosting & Bagging

提升方法主要可以分为两大类：Boosting & BaggingBoosting主要代表算法是Adaboost。Boosting策略主要关注降低偏差。Boosting的基分类器之间彼此串行，每一轮都更新样本的权重，更加关注分类错误的样本，最终采用加法模型，加大分类误差率小的基分类器的权重，降低分类错误率大的基分类器的权重，组合所有的基分类器。...

2018-08-21 11:43:40 204

原创 Machine Learning Series No.4 -- Decision Trees

决策树决策树的总结可以划分为以下两个问题：1.结点如何分裂？2.如何剪枝？剪枝有多重策略，常用的是代价复杂度剪枝（Cost complexity pruning），又叫最弱连接剪枝（weakest link pruning）。剪枝策略剪枝策略很多，以下只是一种，在各个算法中可以选用。代价复杂度剪枝（Cost complexity pruning） ∑m=1|...

2018-08-16 20:27:52 411

原创 python文件读取，json解析报错的原因

前言环境： python 3.6详情报 ascii cannot decode ‘XXX’ in range…. 这个问题有很多人回答，包括有sys.setdefaultencoding()（python3已废弃）然而我再报这个错误的时候我发现这些问题都不是，打印出js，发现是由于js串里面有‘\n’字符报错，保证js中没有’\n’符号才可以正确编译。j...

2018-04-27 17:59:52 2453

背景最近在使用spark做一些图算法方面的工作，遇到了一些spark性能优化方面的坑，折腾了好久，最后通过各方面的努力，包括与同事讨论，阅读spark相关的原始论文，stackoverflow提问，google检索等，解决了一些，这里开个系列，总结相关内容。本博文是该系列第一篇，分享一个之前一直没有注意的事情，cache/persist后的rdd，没有使用就unpersist，等于白干。下面看...

2018-04-08 09:36:54 193

原创 Pyspark系列笔记--使用pyspark进行spark-submit

前言实验环境： 1.pyspark 1.5.0 2.python 2.7本次主要写的是用pyspark提交任务时，需要注意的地方及遇到的问题的解决。Step 1. 提交python工程在提交spark的时候，我们往往python工程是多个python文件，彼此之间有调用关系。那如何提交python工程呢？ ./bin/spark-submit –py-...

2018-03-17 12:02:06 11926

原创 Pyspark系列笔记--错误Unable to acquire XXXXX bytes of memory

前言实验环境： pyspark 1.5.0 python 2.7今天依然在学习pyspark，感觉真的是在天天写bug… 今天又遇到了一个非常坑爹的错误。Step1. 我在一个全新的Dataframe上面应用自己的一个函数，这个函数测试通过。Step 2. 对这个DataFrame做了几次计算以及join以后，发生了错误：Unable to acqui...

2018-03-16 18:06:12 2479

原创 Pyspark系列笔记--如何成功join不同的pyspark dataframe

前言最近在研究pyspark，用到的主要是pyspark的sql模块和ml模块。既然用到sql模块，便免不了要涉及dataframe。至于dataframe的基本操作，大家可以自行百度或者必应，很容易上手的啦。但是坑很多，要慢慢调，要耐心。上次讲到了pyspark的dataframe如何做词向量，详情参见Pyspark系列笔记–如何在一个pysprk Dataframe上训练w...

2018-03-15 19:14:20 16586

原创 Pyspark系列笔记--如何在一个pysprk Dataframe上训练word2vec模型

前言本次试验环境： spark-1.5.0 python-2.7Step 1. Create a dataframe use a json file 值得注意的事 json格式要求每一行为一个json串，即json串不能跨行。支持json格式处理的有jq插件。可参考这一篇关于jq插件的博客。print('读取json文件...')from py...

2018-03-13 20:13:28 2917 1

原创 Machine Learning Series No.3-- Support Vector Machine

前言好久没写，是因为觉得SVM实在是一个太庞大的东西，不知道该从何写起，也不知道能不能写好。但是最终还是觉得要写出来。写在最前面，是想强调一点：线性分类、逻辑回归当中，我们知道最终的分界面是一个平面，在二维当中说，也就是一条直线，但是有时候我们想得到一个非线性的分类边界怎么办呢？这就引出了神经网络和SVM。简要的提一下神经网络，在08年的时候，神经网络并没有那么火，09年深度学

2018-02-03 22:39:48 193

原创唯品会2018机器学习（A卷）

前言想强调的是，机器学习中依然注重基本数据结构，算法的知识。个人答案，觉得有问题的欢迎交流~一、（数据结构与算法）列举至少2种排序算法（如快排），并写出实现代码这里写了冒泡和快速排序两种。冒泡很简单 //冒泡排序 public void bubbleSort(int[] a) { int n = a.length;

2018-01-31 15:57:30 1008

原创 Machine Learning Series No.2 --Logistic Regression

前言每次上吴恩达老师的机器学习课，总是能带给我一些不同的东西（恩，换句话说，也就是我之前都学的啥？？）。这次终于开始写逻辑回归了，逻辑回归真的是一个非常了不起的算法，恩，学到后来你会发现，诶，怎么哪里都有它？这里首先向强调的一点是，逻辑回归是一个线性分类器，用做分类的，而且是线性的，千万不要以为sigmoid函数是非线性的，它就是非线性的了。看一个算法，照李航老师所说，你应该看三部分：

2018-01-29 16:38:38 162

原创分类，回归算法区分点

前言参照博客，觉得写得挺好的。这里是为了让自己更清楚而写，也是自己在学的时候会比较凌乱的点。在之前的文章中，写了线性回归。熟悉机器学习的人，可能一眼看上去会发现，诶，这个东西不就是很像感知器吗，中间回归的那条线就相当于是一个超平面，就相当于构造了一个分类器啊！那是不是说我们可以用线性回归去做分类呢？（至少我是学到现在才正视这个问题，很惭愧！）So, at first, I wann

2018-01-28 20:18:12 580

原创唯品会2018校招机器学习、算法笔试题

前言剩下的题目都是关于图像的，一个是卷积神经网络是什么，卷积的意义? 还有一个是传统图像处理里面的sift提取是什么意思? 鉴于自己不是搞图像方面的，就没有详细写了。个人答案，欢迎交流。一.（深度学习方向）深度学习和过往的神经网络训练方法有什么区别？给出几个具体的loss function？神经网络和深度学习的概念区别：神经网络是我们经常看到的那种层级网络结构，它

2018-01-27 16:26:23 1663

原创 Machine Learning Series No.1 --Linear Regression

前言最近看了李航老师的《统计学习方法》，还正在学习吴恩达老师的《机器学习》的课程（网易公开课上有，较老的版本）。自从看过《统计学习方法》之后，发现笔记不看其实学习效果并不好。因此想以电子版格式写下来记录，一方面加深自己的印象，一方面也是希望能够和大家交流。此版本大致与吴恩达老师的《机器学习》课程一致，因为是结合他的课程以及我之前的《统计学习方法》笔记来写的这一系列文章。以下观点均是

2018-01-26 22:24:15 270

原创简单爬虫，爬取书本图片。

爬虫过程：源文件：1. bookid_bookname_zz.txt，存储为dict类型bookNmaes。2. url_root为亚马逊某本书的搜索界面。程序:1.使用的第三方库：BeautifulSoup,Urllib2, selenium.webdriver, re2. Webdriver的phantomJS可视化爬虫过程，进行调试。3. 4. C

2017-11-23 20:59:19 1002

bra_ve的博客