自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 【论文阅读】 2014SIGIR - Explicit Factor Models for Explainable Recommendation based on Phrase-level Senti

【论文阅读】 2014SIGIR - Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis1.一些概念定义首先,文章根据用户对物品的评论,采用情感分析等自然语言手段,构建user-feature 矩阵 X、item-feature矩阵 Y 和user-item矩阵 A 。其中,X中的元素由以下公式决定:,tij为用户i - Ui在评论中提到特性j - Fj的次数。

2020-09-04 18:02:47 615 1

翻译 [翻译]机器学习之啤酒与纸尿裤-Association Rules and Apriori algorithm

原文链接:https://towardsdatascience.com/association-rules-2-aa9a77241654 在营销界,一直流传有一个著名的“纸尿裤”案例:沃尔玛对旗下一家超市销售数量进行设定跟踪,发现一个奇怪现象,啤酒与尿不湿的销量在周末会出现成比例增长。超市对这个现象进行分析和讨论,并派出专员在卖场进行全天候观察。最后,谜底终于水落石出,发现啤酒和尿不湿多为男人在周末采购,而且购买这两种产品的顾客一般都是年龄在25至35周岁的青年男子,由于孩子尚在哺乳期,多数男...

2020-09-01 17:01:09 818

原创 python - Pycharm中gensim安装后出现Importerror:dll load failed: 找不到指定的模块问题的解决

在成功并严格按照顺序安装nympy,scipy和gensim后,仍然出现以下错误:Traceback (most recent call last):File "<pyshell#3>", line 1, in <module>from gensim import corpora,models,similaritiesFile "gensim\__init__.p...

2020-03-31 15:16:54 1564

原创 [一些翻译和整合] Topic Model-主题模型

一、.概述1.主题对于一篇长文章而言,往往从中抽取一些关键词,就可以知道文章的主题思想。当我们阅读完一篇长文时,可以从中抽取关键词,这些关键词基本可以概括文章大意。然而两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。比如下面两句话:第一个是:“乔布斯离我们而去了。”第二个是:“苹果价格会不会降?”如果由人来判断,我们一看就知道,这两个句子之间虽...

2020-03-24 14:51:19 596

原创 调研-主流推荐框架和算法(多个网络来源汇总)

申明:本文是个调研文档,综合了参考文献中各个资源中的叙述和图,来源出处已标注具体的出处,如有侵权,请联系本人。一.推荐框架1.基本的推荐框架中的算法层的框架大致如下: 图1 基本推荐算法层框架其中,召回层使用一些比较“粗糙”、非实时的算法,比如协同过滤,simrank,热度等等排序层会进一步对召回层删选的商品进行精排,这时数据量的规模比较小,...

2019-10-30 17:50:54 901

原创 Elasticsearch - Fuzzy query

引言fuzzy query 是基于Levenshtein Edit Distance(莱温斯坦编辑距离)基础上,对索引文档进行模糊搜索。当用户输入有错误时,使用这个功能能在一定程度上召回一些和输入相近的文档。例子首先,我们来直观感受下这个功能。现在索引的文档如下: PUT levtest/_doc/_bulk{ "index" : { "_id": 1 } }{ ...

2019-09-27 19:39:45 5746

原创 文本编辑距离

目录引言编辑距离1.Levenshtein distance2.Damerau,F,J distance3.Optimal String Alignment / restricted Damerau-Levenshteindistance4.Jaro distance/similarity5.Jaro-Winkler distance/similarity6.N-...

2019-09-27 18:09:30 384 1

转载 如何从RNN起步,一步一步通俗理解LSTM

转自https://blog.csdn.net/v_july_v/article/details/89894058如何从RNN起步,一步一步通俗理解LSTM前言提到LSTM,之前学过的同学可能最先想到的是ChristopherOlah的博文《理解LSTM网络》,这篇文章确实厉害,网上流传也相当之广,而且当你看过了网上很多关...

2019-07-29 19:22:20 1215

原创 ES-文本分析(analysis)

0.简介 文本分析是指将文本进行特定的过滤、分词和转换的过程。 在es进行倒排索引和进行文本搜索时,都可以预先对文本进行文本分析,经过文本分析后的结果会最后被建进倒排索引或者被发送进行真正的查询。上图是文本分析器的可视化图,一个分析器包括字符过滤器、分词器和分词过滤器。如下是定义一个定制化分析器的例子,analyzer内定义了分析器用到的字符过滤器、分...

2019-06-14 18:14:36 4016

转载 【转】统计学之三大相关性系数(pearson、spearman、kendall)

(转自 微信公众号克里克学苑)三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1. person correlation coefficient(皮尔森相关性系数)公式如下:重点关注第一个等号后面的公式,...

2019-06-12 12:00:53 565

转载 使用Spring MVC的统一异常处理器

转自:https://www.jianshu.com/p/20dd0d28c758使用Spring MVC的统一异常处理器Spring MVC定义了异常的统一处理机制,其工作原理是:Spring MVC统一异常处理流程.png不管是应用程序的哪里出现异常,都向上层抛出异常,最后异常被提交到Spring MVC的Dispatcher Servlet中,Dispatcher Ser...

2019-05-23 19:41:56 75

原创 Elasticsearch的一些学习笔记

详细的文档见:https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/_add-an-index.html1.分片一个分片可以是主分片或者副本分片。索引内任意一个文档都归属于一个主分片,所以主分片的数目决定着索引能够保存的最大数据量。技术上来说,一个主分片最大能够存储 Integer.MAX_VALUE...

2019-03-25 18:23:02 69

转载 【转】模糊搜索&自动纠错——Fuzzy Query by Levenshtein Automata

转自https://zhuanlan.zhihu.com/p/35819194在我们每天使用的搜索引擎中,有这么一个简单的小功能经常被忽略——模糊搜索以及自动纠错。当我们输入一个错误的单词时,与其相似的结果将会被返回。这个小功能需要很高的效率以提供良好的用户体验。举个栗子:“relevent”自动纠错为“relevant”不知道你有没有思考过这是如何实现的呢?如果你对...

2019-03-14 16:08:42 663

转载 Running Setup Data on Startup in Spring

转自:https://www.baeldung.com/running-setup-logic-on-startup-in-spring1. IntroductionIn this article we’ll focus on how torun logic at the startup of a Spring application.2. Running Logic On Star...

2019-03-07 17:24:03 110

转载 【转】HMM(隐马尔可夫模型)

转自http://www.cnblogs.com/skyme/p/4651331.html什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。...

2019-03-07 11:07:58 93

转载 【转】LP 笔记 - Spelling, Edit Distance, and Noisy Channels

转自 http://www.shuang0420.com/2017/02/02/NLP%20%E7%AC%94%E8%AE%B0%20-%20Spelling,%20Edit%20Distance,%20and%20Noisy%20Channels/  欢迎查看原文CMU 11611 的课程笔记。这一篇介绍拼写的检查和更正,主要研究打字者键入的文本,同时这样的算法也可以应用于 OCR 和手...

2019-01-16 18:15:12 249

转载 【转】Maven提高篇系列之一——多模块(multimodule)

转自 https://blog.csdn.net/ksgt00016758/article/details/26673451通常来说,在Maven的多模块工程中,都存在一个pom类型的工程作为根模块,该工程只包含一个pom.xml文件,在该文件中以模块(module)的形式声明它所包含的子模块,即多模块工程。在子模块的pom.xml文件中,又以parent的形式声明其所属的父模块,即继承。然而...

2019-01-10 18:37:47 1205

转载 线性回归(Linear Regression)、损失函数(Loss Function)、最小均方算法(LMS)、梯度下降(Gradient Descent)

转自http://www.cnblogs.com/BYRans/p/4700202.html实例    首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积、卧室数量和房屋的交易价格,如下表:        假如有一个房子要卖,我们希望通过上表中的数据估算这个房子的价格。这个问题就是典型的回归问题,这边文章主要讲回归中的线性回归问题。 线性回归(Linear R...

2018-08-19 18:25:16 17289

转载 中文分词

1.判断字符中是否包含中文字符转载源:http://lhp--2006.iteye.com/blog/1300002可以利用Character.UnicodeBlock.=中的CJK相关字符集。CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码 其中相关的一些字符集的定义:Character.UnicodeBlock.CJK...

2018-07-14 12:02:47 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除