算法
文章平均质量分 67
MaoziShan
这个作者很懒,什么都没留下…
展开
-
Python自然语言处理资料库
1、LTP - 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。2、NLPIR汉语分词系统 - 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。3、结巴中文分词 - 支持三种分词模式:精确转载 2021-04-21 14:42:33 · 233 阅读 · 0 评论 -
TimeGAN_Time-series generative adversarial networks
论文:Time-series generative adversarial networks代码:https://github.com/jsyoon0823/TimeGAN现有的时间序列研究中,自回归模型明确地将时间序列模型分解为条件分布的乘积。这种方法在预测中表现优秀,但是无需添加外部条件就能获得新序列信息,作者考虑到这并不是一种“生成”方法。另一方面的研究是使用GAN,这种方法简单地应用标准的loss函数,可能不能捕捉序列之间的逐步依赖关系。因此作者将上述两种不同实现机制的方法结合在一起——时间序原创 2021-04-13 18:32:16 · 5161 阅读 · 4 评论 -
线性回归和逻辑回归
线性回归预测结果是一个连续的数值;逻辑回归输出每个可能的选项(非连续)的可能值。逻辑回归相对于线性回归多了一个sigmoid激活函数,计算出非连续变量对应的概率值。对于非连续变量的预测问题,如果预测结果取值有n个,那么在数据预处理过程中,一般将lable设置为长度为n的向量,其中每个位置的值表示对应数值的概率值(或许其他具有一定意义的数值,反正得有一定的映射规律)。例如如果取值为0~9,那么训练集中label为1的输入对应的输出为[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],..原创 2021-04-02 17:08:02 · 161 阅读 · 0 评论 -
交叉熵
信息量:事件的信息量为事件发生的概率的自然对数值取负。熵:所有信息量的期望,即信息量与事件发生概率的乘积的和取负。相对熵:KL散度。如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。在机器学习中,P往往用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1]。直观的理解就是如果用P来..原创 2021-04-02 17:04:38 · 131 阅读 · 0 评论 -
阅读——TF-IDF算法
博文TF-IDF算法介绍及实现主要介绍了TF-IDF,包括原理、不足、实战。阅读问题的提出中包含了对TF-IDF的拓展。TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随原创 2021-03-20 16:42:50 · 1983 阅读 · 0 评论 -
正则化
* `decays` * we adopt L2 regularization and use the decays to control the penalty strength. * L2 regularization term is tuned in {1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2}.顶会看多了,模型跑多了,知识 要自学的东西 也变多了。啥叫正则化?用来干啥的?啥是L1、L2?我将在这篇博文做一个综合性整理。1.正则化引入惩罚因子/正则化参数,原创 2021-03-16 20:53:45 · 234 阅读 · 1 评论 -
NGCF调参——拉普拉斯矩阵
最近在跑NGCF模型(Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, and Tat-Seng Chua. 2019. Neural graph collaborative filtering. In SIGIR. 165–174.),发现作者给的代码中,有如下注释* `adj_type` * It specifies the type of laplacian matrix where each entry defines the decay facto原创 2021-03-16 19:32:51 · 674 阅读 · 1 评论