机器学习
jingyi130705008
你已经很好了,只是你还可以更好。
展开
-
FastText 微调
安装之前只需要把model.cc文件中以下几行代码注释掉即可实现【冻结词向量】。原创 2024-03-31 17:04:28 · 238 阅读 · 0 评论 -
机器学习自动调参小试
1. 安装环境2. 脚本原创 2021-06-07 15:01:36 · 686 阅读 · 1 评论 -
XGBoost学习资料
1. 原论文2. PPT3. 学习视频XGBoost Part 1 (of 4): Regression:https://www.youtube.com/watch?v=OtD8wVaFm6EXGBoost Part 2 (of 4): Classification:https://www.youtube.com/watch?v=8b1JEDvenQUXGBoost Part 3 (of 4): Mathematical Details:https://www.youtube..原创 2021-01-24 20:13:35 · 141 阅读 · 0 评论 -
textRank原理及实现
TextRank原理同PageRank一样,这里暂时就不论述:1.代码实现# encoding = utf-8import jieba# 利用jieba分词# 返回分割后的word listdef getWords(text): allGraphs = text.split('\n') allWords = [] for graph in allGraphs: all...原创 2020-01-13 15:38:24 · 763 阅读 · 0 评论 -
IForest简介
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。之前介绍过利用高斯分布进行异常值检测,今天我们来学习另外一种非常有用的IForest算法。1. IForest思想简介 IFore原创 2018-01-29 20:06:22 · 5608 阅读 · 0 评论 -
朴素贝叶斯面试总结
1. 朴素贝叶斯与LR的区别?简单来说:朴素贝叶斯是生成模型,根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X), 而LR是判别模型,根据极大化对数似然函数直接求出条件概率P(Y|X);朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的),而LR则对此没有要求;朴素贝叶斯适用...原创 2018-03-06 22:51:12 · 4934 阅读 · 0 评论 -
Apriori算法与FP-Tree简介
1. 背景介绍 从“啤酒与尿布”的案例中,我们得知人们在购买商品时是存在一定的规律的,因此找出这些商品的关联是一件非常有价值的事情。那么,我们如何确定哪些商品是有关联的呢?下面以图一为例,简单介绍三个重要的评估标准。图一 1.1 支持度 支持度:{X,Y}同时出现的概率。Support(X, Y) = X,Y 同时出现的数量 / 总样本的数量。按照图一所给数据,Supp...原创 2018-03-01 18:34:35 · 1844 阅读 · 0 评论 -
线性回归,原来我一直都不懂你...
本文将首先介绍简单的一元线性回归及其最小二乘解法;然后介绍多元线性回归,并用最小二乘法、梯度下降法进行求解,最后重点讨论多元线性回归多种解法的优缺点。原创 2018-03-03 18:45:22 · 3748 阅读 · 0 评论 -
深入了解LR
深入了解LR原创 2018-03-05 17:57:53 · 571 阅读 · 0 评论 -
基于短文本的推荐
很多时候系统只会推送那些大V发布的微博,而对于新人发布的优质内容就会忽略。那么如何避免这一问题呢?首先要做的就是发现优质内容的微博。1. Baseline1.1 用户特征(1)基本属性一般指用户侧的基本属性,如年龄、性别等。由于数据中无相关信息,于是无需进行分析。(2)用户-博文交叉特征(统计特征)1)过去一个月:-发布博文总数-最大评论数、点赞数、转发数 ...原创 2019-08-01 17:58:21 · 223 阅读 · 0 评论 -
短文本聚类
1. 数据预处理1.1 下载搜狗实验室提供的新闻预料(提取码krbd)1.2 xml文本解析extract_text.py : 读取SogouCS_reduced文件夹下的文件,进行xml解析,得到每个新闻的content,并将其放在对应的分类文件夹下;split_text.py : 读取分类好的新闻预料(SogouCS_reduced_after文件夹下),采用jieba库进行分...原创 2019-08-01 17:58:55 · 839 阅读 · 0 评论 -
Bagging与随机森林算法简介
在集成学习中,大致分为两大类:一种是Boosting系列的算法,另一种是Bagging系列的算法。对于Boosting算法而言,它的特点是各个弱学习器之间有依赖关系。对于bagging算法,它的特点是各个弱学习器之间没有依赖关系,可以并行学习。之前的提升(Boosting)方法简介已经详细介绍了Boosting算法原理,今天我们主要来谈谈Bagging算法的相关内容。1. Baggin原创 2018-01-29 19:58:02 · 1122 阅读 · 0 评论 -
GBDT算法简介及原理
GBDT算法简介及原理原创 2018-01-28 10:03:28 · 1614 阅读 · 2 评论 -
AdaBoost算法简介与原理
为了更好理解AdaBoost算法的核心思想,我们首先给出基于二分类的AdaBoost算法的基本步骤,然后再介绍其原理。最后给出AdaBoost的回归算法。1. AdaBoost算法步骤2. 对AdaBoost二分类算法的直观认识3. AdaBoost二分类算法原理原创 2018-01-28 10:00:29 · 1827 阅读 · 0 评论 -
Linear Regression 与 Logistic Regression的几点不同
Linear Regression 与 Logistic Regression的几点不同原创 2017-12-22 16:10:25 · 5417 阅读 · 1 评论 -
支持向量机基本原理的直观理解
支持向量机基本原理的直观理解原创 2017-12-24 12:28:58 · 819 阅读 · 0 评论 -
拉格朗日对偶性
拉格朗日对偶性原创 2017-12-25 11:13:01 · 1207 阅读 · 0 评论 -
非线性支持向量机与核函数
非线性支持向量机与核函数原创 2017-12-25 17:35:53 · 1887 阅读 · 0 评论 -
奇异值分解(SVD)原理
奇异值分解(SVD)原理原创 2017-12-30 21:09:06 · 1207 阅读 · 1 评论 -
主成分分析(PCA)简要介绍
主成分分析(PCA)简要介绍原创 2017-12-31 11:04:36 · 831 阅读 · 0 评论 -
关于Logistic Regression 与 SVM的选择
关于Logistic Regression 与 SVM的选择原创 2017-12-26 09:43:22 · 927 阅读 · 0 评论 -
聚类算法的几个注意点
聚类算法的几个注意点原创 2017-12-28 11:22:08 · 1109 阅读 · 0 评论 -
矩阵的迹及相关性质
矩阵的迹及相关性质原创 2017-12-30 16:12:19 · 62728 阅读 · 5 评论 -
协同过滤算法的基本原理与实现
协同过滤算法的基本原理与实现原创 2018-01-09 16:38:33 · 15024 阅读 · 10 评论 -
提升(Boosting)方法简介
提升(boosting)方法是一种常用的机器学习方法,应用十分广泛。提升方法的基本思想是:对于一个复杂的学习任务,我们首先构造多个简单的学习模型,然后再把这些简单模型组合成一个高效的学习模型。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。1. 基本概念1.1 “强可学习”和“弱可学习” “强可学习”是指:在概率近似正确(probably approxi原创 2018-01-28 09:55:06 · 2628 阅读 · 0 评论 -
Normal Equation 简介
Normal Equation 简介原创 2017-12-21 18:58:28 · 2807 阅读 · 1 评论