不爱学习的木易-CSDN博客

原创 Word2Vec------skip-gram、CBOW、负采样、的一些理解

1.Window based Co-occurrence Matrix简单来说就是统计语料库中，在确定window长度的情况下，统计word的出现频率，基于词频得到关联矩阵，例如：然后，利用SVD奇异值分解，变成K维，每一row就刚好是每个词word embedding的大小。但是这种方法有很多缺点，纬度高、矩阵稀疏、cost较大等。2. continuous bag-of-words (...

2019-05-26 20:13:06 540

原创 CS224N NLP 学习笔记-----word vector

语言的妙处老师列举了一些案例，个人看法可以概括成两点：1. 语言的不确定性。我们日常生活中人与人的交流，建立在human language的基础之上，一句话可以有不同的单词，语气，表达的含义也是多种多样的。如果把这些word看成是一个又一个的signals，实际上这个signal又包括context（上下文）和subtext（潜在含义）。不同的人对于同一个句子可能也会有不一样的理解。也就是说...

2019-05-26 19:22:10 434

原创 embedding 的直观表示

看见一张图，可以很好地理解机器学习中‘嵌入这一概念’在 onehot向量空间中，每个特征都位于坐标轴上，每个坐标轴上一个特征。相似度都为0而在低维的嵌入空间中，每个特征都不在坐标轴上，特征之间可以计算相似度。...

2019-05-24 10:58:16 266

原创论文解读：Feature trees: A new molecular similarity measure based on tree matching

图论中一些基本的定义：连通、连通图和连通分量在无向图中，若从顶点a到顶点b有路径，则认为a和b是连通的。如果图中任意两个顶点都是连通的，则认为图为连通图。图中极大连通图子图称为图的连通分量强连通图和强连通分量把上述思想用在有向图中，就换成强连通图和强连通分量双连通分量包括双边连通分量和双点连通分量，其实就是任意两点直接有至少存在两条路径使得边不重复或者使得点不重复。论文中的featu...

2019-05-22 18:19:37 631

原创 Tox21数据集学习笔记

Toxicology Testing in the 21st Century (Tox21)比赛地址链接：https://tripod.nih.gov/tox21/challenge/data.jsp#TOX21 program介绍In fact, more than 30 percent of promising pharmaceuticals have failed in human c...

2019-05-22 16:54:30 5625

原创文献阅读笔记------MoleculeNet： A Benchmark for Moleculr Machine Learnning

Vijay Pande小组的工作主体工作：做了一个做分子属性预测的benchmark，包含公用数据集、评价方式、数据集划分方式、分子特征提取方法、多种学习模型。一些观点：化学数据资源是可贵的，当前的很多组的工作很分散，dataset也不是很统一，无法正确的比较学习算法的优劣。所以想做一个类似wordnet、imagenet类似的moleculenet，一方面可以作为benchmark，一方...

2019-04-26 15:45:05 1939 1

原创 Andrew Ng chapter15 降维-PCA

降维的两个目标：一是数据压缩，二是可视化；可以减少内存，减少磁盘空间，提高效率。PCA关键是找到降维的向量方向。与线性回归的区别，在于图中的小圆点，PCA的衡量标准就是投影误差。PCA算法运用协方差和奇异值分解推导过程和数学原理压缩重现K的选取PCA解决overfitting不是正确的方式，因为没有考虑Y值，用正则化，效果会好一些。参考奇异值分解(SV...

2019-04-24 14:11:00 176

原创 Andrew Ng chapter19 应用实例

pipelineSliding Windows人造数据

2019-04-24 10:57:05 109

原创 Andrew Ng chapter16 异常检测

高斯分布异常检测算法独立性假设思想评估方法用实际带label的数据去做处理与监督学习的区别和用法一是数据不平衡时使用，二是反例案例没有规律可循时使用。特征处理原则上特征应该符合高斯分布，可以通过log等方法将不符合高斯分布的函数转化成符合高斯分布。比如下面，从左图到右图的变化，即是通过增加一个特征，来达到区分。多变量高斯分布像这种数据分布的很窄，直接对单...

2019-04-24 10:50:26 241

原创 Andrew Ng chapter18 大规模机器学习

判断是否需要大数据集，像图中右边明显是高偏差问题，此时单纯的增加数据集的大小是没有什么特别好的作用的。随机梯度下降为了减少计算量原始的batch 梯度下降SGD将每次的梯度下降运行只放在一个样本上。之前要做数据的打乱工作，所以在训练过程中，是有一定的噪音的，因为每个样本对梯度的影响情况也是不同的。Mini-batch 梯度下降介于SGD和梯度下降之间的一种方法。SGD的...

2019-04-24 10:15:25 110

原创 Andrew Ng chapter17 推荐系统

问题规划自动填补缺失值问题基于内容的推荐算法问题相当于针对每一个用户，做线性回归，求解参数Thera值。协同过滤自动学习特征协同过滤算法同时求解参数Thera和特征X矢量化：低秩矩阵分解均值归一化我们需要进行 Mean Normalizaion处理, 如下图所示. 然后对于第j个用户在第i个电影的评分用预测。...

2019-04-24 10:00:42 110

原创 Andrew Ng chapter14 无监督学习------K Means

K均值算法，是一个迭代算法，迭代过程有两个：簇分配，以及聚类中心的移动。输入：K的值以及数据优化目标失真代价值随机初始化为了避免结果是局部最小值，可以多次随机初始化K，但是只是当m的数量不太多时效果会比较好。K值的选取肘部法则或者是根据需求来选择...

2019-04-23 17:39:04 152

原创 Andrew Ng chapter13 SVM

支持向量机（从逻辑回归出发）与逻辑回归相比，输出的就不再是概率值，而是0或者1大间隔分类器，但是仅有C足够大的时候，才能达到严格意义上的大间隔。大间隔分类器的数学原理两个向量的内积实际上，Thera和decision boundary是相互垂直的，目标是使得P足够大，才能最小化cost function核函数对于复杂的decision boundary 改变fe...

2019-04-23 16:55:13 153

原创 Andrew Ng chapter11-12机器学习系统设计和建议

学习曲线查准率和召回率衡量skewed class的一些较好的方式。

2019-04-21 21:14:16 115

原创 Andrew Ng chapter9-10 神经网络

神经网络源于非线性假设，发展史如下神经网络组成单元前向传播神经网络反向传播cost function反向传播公式及推导过程δ(l) 的意义就体现在：它是用来保存上一次计算的部分结果。在计算 δ(l−1) 时，可以使用这个部分结果继续向下逐层求偏导。这样在神经网络特别复杂、有大量计算时就可以节省大量重复的运算，从而有效地提高神经网络的学习速度。梯度检验...

2019-04-21 18:03:04 150

原创 Andrew Ng chapter8 正则化

正则化overfitting解决过拟合的方法：第一种是人为的手动删减特征，或者使用算法模型直接挑选特征。但是由于有些特征信息或多或少都是有些作用的，所以就产生了第二种方法，正则化思想，保留特征，但是降低这些特征的参数值，相当于给他们加上一个惩罚项，从而实现简化模型的作用。线性回归的正则化（1）针对梯度下降法（2）针对正规方程法这时，只要正则参数λ大于0，就不用在考虑，可不...

2019-04-21 13:29:41 140

原创 Andrew Ng chapter7 逻辑回归（分类算法）

逻辑回归logistic regression通常，我们直观上倾向于把1定义为，我们想要寻找的那一类。继续用线性回归解决分类问题时，会受到个别案例的显著影响，而且线性回归的取值为（负无穷，正无穷），不符合（0,1）所以线性回归不适应做分类。此外，对于分类模型，我们一般有两种方法：一个最直观的办法就是设定一个阈值，比如0，如果我们预测的数值 y > 0 ，那么属于标签A，反之属于标签...

2019-04-21 12:35:44 150

原创 Andrew Ng chapter5 多元线性回归

多元线性回归gradient descent for multiple linear regressioncost function 有所改变feature scaling为了更快速的收敛，防止来回波动，进行特征缩放均值归一化learning rate 判断working correctly上述cost function 的异常现象都可能通过调节学习率来缓解。常用的学习...

2019-04-20 13:18:51 193

原创 Andrew Ng 机器学习 chapter 3 线性代数知识回顾

线性代数知识回顾Matrix & VectorMatrix : rectangular array of numbers （大写）Vector: An n by 1 matrix (小写)Matrix & Vector 的一些运算加法运算乘法运算prediction = datamatrix * parameterIdentity Matrix沿对角线为1...

2019-04-20 11:16:01 146

原创 Andrew Ng 机器学习 chapter 2 单变量线性回归

Andrew Ng 机器学习 chapter 2 单变量线性回归linear regression with one variablecost function当Thera有多个元素时，可以把整个代价函数看成类似于contour plots（像碗状结构一样），相当于求函数最低点。gradient descent包括两个步骤：设置初始值更改初始值，寻找代价函数的最小值需...

2019-04-20 10:22:29 165

原创 Andrew NG 机器学习 Chapter 1 初识机器学习

Andrew NG 机器学习 Chapter 1 初识机器学习machine learning definition一、Arthur samuel ： field of study that gives computers the ability to learn without being explicitly programmed 在没有明确的设置下，使计算机具有学习能力的研究领域二...

2019-04-19 17:46:02 121

原创一段杂乱的机器学习学习历程记录，请多多关照！

一段杂乱的机器学习学习历程记录刚接触机器学习回想一下，好像是2018年的暑假，大概7月份左右。那时的我刚刚进入研究生阶段，什么都不懂，什么也不会。提前进入实验室，对什么东西都充满了好奇感。课题组也是，在药学院，什么都做，从生物到化学、再到理论计算。但是似乎什么方面也没有做的很突出。在做了一个月左右的分子对接后，感到绝望，枯燥，刚好课题组有个师兄和师姐在做机器学习，抱着试一试的心态，开始了入门。...

2019-04-19 14:01:36 213

qq_42907828的博客