机器学习
文章平均质量分 77
我对机器学习的理解
小时不识月123
20200909,要加油呀!!!
展开
-
我对隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的理解
LDA应用场景可以做文本内容提取,比如提取“穆斯林的葬礼”的主题,可能会提取出爱情主题,社会悲剧主题,比如提取“大圣归来影评”的主题,可能提取出怀旧主题,制作精良主题。而每个主题是用一些词语表示的,并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义,可以通过主题词语自己主观猜测,或者把主题词语溯源到文本,自己读读文本总结。名词介绍在贝叶斯概率理论中,如果后验概率p(θ│x) 和先验概率p(θ) 满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布p(θ)叫做似然函原创 2022-02-22 00:59:24 · 786 阅读 · 2 评论 -
我对word2vec的理解
目录知识点1. sigmoid函数2. 逻辑回归3. 统计语言模型条件概率的计算4. 考虑总体语料库的语言模型总结5. 词向量的理解word2vec数学原理1. CBOW模型的网络结构示意图2. 基于HS的CBOW目标函数及求解总结举例子:3. skip-gram模型的网络结构示意图4. 基于HS的skip-gram目标函数及求解知识点1. sigmoid函数2. 逻辑回归3. 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型。条件概率的计算4. 考虑总体语料库的语言模型综原创 2021-07-07 00:03:15 · 287 阅读 · 4 评论 -
机器学习模型总结
自变量:连续型数据,因变量:连续型数据选自:周志华老师《机器学习》P53-55思想:残差平方和达到最小时的关系式子即为所求,残差平方和:实际值和估计值之间差的平方和。后续补充:求解方式1:手动推导,求解方式2:梯度下降。手动推到时矩阵不可逆如何加归纳偏好。残差平方和达到最小:以下选自:王汉生《应用商务统计分析》第四章(1)变量:连续型数据,因变量:离散型数据(2)思想:假设了一个式子,计算事件发生的可能性。令事件发生的可能性用Z表示:设定一个阈值c,使得:无论对F(t)的具体原创 2024-03-03 22:55:43 · 724 阅读 · 0 评论 -
学习笔记-南方科大张宇:神经网络可解释性综述
学习笔记-青源 LIVE 第 1 期 | 南方科大张宇:神经网络可解释性综述为什么要可解释性视频中举了一个例子:不了解模型背后的逻辑,是个黑盒子,对于要求高可靠性的系统来说没有安全感。如:图像识别领域,由于数据采集的原因,某一类的图片里面都有水印,神经网络投机取巧学到了水印代表某个特定的类,最后预测还好,但本质上模型分类靠的是水印这么个特征,若预测的图片没有水印,或者其他类别的图片有水印,就判别不出来了。如果能发现这个逻辑是不可靠的,就能提前知道这个模型是不可靠的。获取解释性的方法我只大概原创 2021-07-06 22:34:47 · 342 阅读 · 0 评论 -
“西游记之大圣归来”关键词提取-textrank
功能输出文本关键词以及热度值工具python2 spark2.0.2数据集两个字段(评论人,评论内容),480条短评;结果脚本主函数#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@file:@time:"""from __future__ import print_functionimport sys,os,time,jiebareload(sys)sys.setdefaultencodi原创 2020-05-27 15:51:45 · 1065 阅读 · 0 评论 -
关于欧氏距离和余弦相似度的使用场景
最近在做“判断两段文本的语义相似度”的事情,实验中用doc2vec做文本向量化,用余弦值衡量文本相似度。 那么为什么选用余弦呢? 如向量的维度是3,有三段文本a、b、c,文本向量化之后的结果假如如下:a=(1,0,0)、b=(0,1,0)、c=(10,0,0)。 我们知道doc2vec的每一个维度都代表一个特征,观察向量的数字,主观看来a和c说的意思应该相似,阐述的都是第一个维度上的...原创 2018-06-06 08:32:58 · 8915 阅读 · 0 评论 -
机器学习实践中的细节经验
以下是个人的一些想法,后面有时间还会持续更新(但是总是木有时间啊)。大多数预测值都比实测值成倍数的缩小或者扩大原由:迭代不充分,算法不收敛。归一化会缩小训练时长一个极端案例:预测未来16个点,5k 数据量,transformer,归一化500迭代次数即可,不归一化,迭代3000次才收敛。评测指标mape的弊端对于实测值较小时不友好: 需要对目标值划分区间,分开测评。随机森林回归、决策树回归和线性回归、神经网络的区别:训练集的分布不能完全代表总体分布时,用线性回归和神经网络前者基于对特征划最优区间,原创 2022-05-25 19:40:02 · 493 阅读 · 0 评论 -
机器学习性能评估指标
预测为正的样本中有多少是真正的正样本(你认为的该类样本,有多少被你猜对了)。FalseNegative(假负,FN)将正类预测为负类数→→。FalsePositive(假正,FP)将负类预测为正类数→→。TrueNegative(真负,TN)将负类预测为负类数.TruePositive(真正,TP)将正类预测为正类数.样本中的正例有多少被预测正确了(该类样本有多少被找出来了)。查准率=检索出的相关信息量/检索出的信息总量。.........原创 2022-08-02 14:26:14 · 548 阅读 · 0 评论 -
“刘知远实验室”的关系抽取实验复现
今天开始调试下面这份脚本:Neural Relation Extraction(NRE)遇到的问题:原创 2018-09-27 17:04:05 · 7373 阅读 · 6 评论 -
“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation
功能:1.输出影评主题 2.输出每份评论在各个主题上的权重分布工具:python2 spark2.0.2etl#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:"""from __future__ import print_functionfrom pyspark.sql import SparkSessionimport os,ConfigParser,sysreload(sys)sys.se原创 2020-05-25 17:12:59 · 623 阅读 · 0 评论 -
NRE论文总结:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
acl论文阅读(Attention-Based Bidirectional Long Short-Term Memory Networks forRelation Classification,中科大自动化所 Zhou ACL 2016)数据集详情SemEval-2010 Task 8 datasettraining8,000 sentencestesting2,717 sente...原创 2018-10-25 10:40:37 · 3131 阅读 · 0 评论 -
doc2vec方法判断文本相似度
功能:输出两段文本的语义相似度工具:python2 gensim:version = '3.4.0’清洗、分词词典构造、去数字、去停用词清洗,输入.txt,一条文本占一行,分词、加载分词词典去数字、停用词#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:@content:预处理"""import sys,jieba,time,re,codecsreload(sys)sys.setd原创 2020-05-25 14:26:20 · 4970 阅读 · 6 评论 -
关于gensim中doc2vec的使用参考
工具:anaconda21.TaggedDocumnet 和TaggedLineDocument 前者的输入有两个参数:一行分词后的文本,标签; 后者的输入:分词之后的文本文件,每个文本占一行2.库版本的差异 python的gensim有2.3.0和3.4.0两个版本,加载模型推测文本向量时所用的gensim版本一定要和训模型时使用的版本一样。3.推测文本向量时的注意事项 一开......原创 2018-06-01 11:07:02 · 14307 阅读 · 25 评论 -
我对“用箱形图寻找异常值”的理解
异常值检验有很多种方法,这里主要说箱形图。所谓的异常就是和大众不一样呗,就是指样本中出现的明显偏离大多数观测值的个别值。箱线图(boxplot)知识原理(我手画了下,因为最开始是发在公众号上的,现在移图想去水印,图上有些可能看不清)适用不要求数据服从正态分布;判断异常条件数据小于Q1-QR1.5或者数据大于Q3+1.5QR为异常值;实例数据来自:http://www.uni-......原创 2019-03-20 19:45:28 · 29165 阅读 · 7 评论 -
我对数学期望的理解
期望是针对随机变量而言的,是随机变量的均值。s:样本方差,分母是n-1μ:总体均值D(X):总体方差Xˉ:样本均值总体的均值又叫做总体期望,比如总体X的期望,即E(X)=μ;比如样本均值从某种意义上来说也是一个随机变量,因为在抽取样本的时候你不知道会抽取什么样子的样本,则对样本均值求期望,就是E(Xˉ)=μ,但是一旦样本抽出来了,那么样本均值就是一个固定的值了,就不能说均值的期望了;...原创 2019-03-20 19:19:17 · 12188 阅读 · 0 评论 -
我对先验概率和后验概率的理解
先验概率先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现。比如抛硬币,我们都认为正面朝上的概率是0.5,这就是一种先验概率,是常识得出的概率,正面朝上的全概率公式为(假如造成正面朝上只有两种独立的原因):p(正面朝上)=p(正面朝上/造成正面朝上的原因1)+p(正面朝上/硬造成正面朝上的原因2)假如事件A发生有B1,B2,…,Bm一共m种独立原因(正式说法是完备事件组),那么全概率公式就是:p(A)=p(A,B1)+p(A,B2)+…+p(原创 2020-09-11 18:12:10 · 462 阅读 · 0 评论 -
我对支持向量机(SVM)的理解
这篇最初也是发在公众号上的,所以图片水印部分会由于马赛克看不清。名词解释支持向量机中的机:在机器学习领域,常把一些算法看做一个机器,如分类机(也叫作分类器)问题描述空间中有很多已知类别的点,现在想用一个面分开他们,并能对未知类别的点很好的识别类别。算法思想由问题描述可知,现在算法要解决两个问题:找到一个平面,可以很好的区分不同类别的点,即使分类器的训练误差小,线性可分时要求训练误差...原创 2019-06-21 15:40:34 · 349 阅读 · 0 评论 -
今天圣诞,正常生活开启了
最近得到了一台台式机和显示器,重新配置了所有工作需要的环境,特别爽。本周都要加班了,赶完年前的项目,整理好和大数据有关的资料,算是暂时告别大数据了,虽然我还是有很多不会的,我会的太少,希望自己一周能整理好资料和赶完项目吧。一抬头就能见到的前领导搬座位了,每时每刻生活都在变化,但早晨能走二十分钟就感觉赞赞的。年后正式开始做Nlp 了,告别25岁,向梦想出发!...原创 2018-12-25 09:17:53 · 249 阅读 · 0 评论