Mechine Learning系列
文章平均质量分 65
Terry_dong
我只是个搬运工
展开
-
深入理解搜索引擎——详解query理解
【导语】当你在搜索框输入一串简短的文本后,搜索引擎立马会返回成千上万条结果,整个搜索过程看似简单,其实底层引擎大有文章。每一个简短的搜索词背后都隐藏着用户最真实的查询意图,需要搜索引擎使用很多不同策略去挖掘用户背后的需求,这就涉及到“搜索query理解”。我们此前讲过《初识query理解》当用户输入query:“P i g n g u o 的生產地。”在以上每个模块具体是怎么处理的?01 文本预处理大小写转换:query会转为“p i g n g u o 的生產地。”全半角转化..原创 2021-09-24 11:14:23 · 3255 阅读 · 0 评论 -
Hive sql中的 各种join(内连接、左外连接、右外连接、满外连接)
join语句1 等值 joinHive支持通常的SQL JOIN语句,但是只支持等值连接,==不支持非等值连接==。案例实操select * from stu left join score on stu.id = score.s_id;根据学生和成绩表,查询学生姓名对应的成绩2 表的别名好处使用别名可以简化查询。使用表名前缀可以提高执行效率。案例实操:合并老师与课程表-- hive当中创建course表并加载数据create table cou.原创 2021-05-24 14:18:45 · 5092 阅读 · 0 评论 -
精确率,召回率,F1值的通俗解释
接下来是精确率,召回率,F1值通俗解释:上一篇绘制的混淆矩阵首先回顾上一篇画的混淆矩阵中T、F、P、N的含义:T:真,F:假,P:阳性,N:阴性然后组合:TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性精确率:你认为对的中,有多少确实是对的,所占的比率:你认为对的:即预测值为1的数量=TP+FP有多少确实是对的:TP召回率:本来是对的中,你找回了多少对的,所占的比率 :本来是对的:即真实值为1的数量=TP+FN你找回了多少对的:TP..原创 2021-05-24 11:24:04 · 959 阅读 · 0 评论 -
beam search
梳理下机器学习中常用到的一种搜索算法beam search(束搜索)。为了方便大家理解,这里先假设一个非常简单的搜索任务。假设一个搜索任务假设现在有一个简化版的中文翻译英文任务,输入和输出如下,为了方便描述搜索算法,限制输出词典只有{"I", "H", "U"} 这3个候选词,限制1个时间步长翻译1个汉字,1个汉字对应1个英文单词,这里总共3个汉字,所以只有3个时间步长。中文输入:"我" "恨" "你"英文输出:"I" "H" "U"目标:得到最优的翻译序列I-H-Uexhausti.原创 2020-10-20 18:18:07 · 1382 阅读 · 1 评论 -
自然语言--kenlm环境搭建
这篇博客主要是分享下小象学院自然语言课程(主讲:史兴)第二讲中示例中kenlm环境搭建的过程,同时也当给自己留个存档。 对于这个环境的搭建,我是在ubuntu16.04的虚拟机中进行的,下面直接进入正题:1、首先看一下此课程中搭建需要用的东西,如下图所示。在运行环境处,对于anaconda和NLTK是很简单的,这里就不多做解释了,如果有需要的可以留言交流。2、直接进入KenLM环境的搭建,首先进入kenlm的github网址点击打开链接,然后会进入到kenlm的界面,如下:...原创 2020-08-25 18:39:03 · 639 阅读 · 0 评论 -
Spark MLlib 机器学习
目录本章导读1.机器学习概率2.Spark MLlib总体设计3.数据类型3.1局部向量3.2标记点3.3局部矩阵3.4分布式矩阵4.基础统计4.1摘要统计4.2相关统计1.皮尔森相关系数2.斯皮尔森秩相关系数4.3分层抽样4.4假设校验4.5随机数生成5. 分类和回归5.1数学公式5.2线性回归1.简单线性回归2.多元线性回归5.3分类1.线性支持向量机2.逻辑回归...原创 2020-08-11 15:13:11 · 1121 阅读 · 0 评论