- 博客(37)
- 收藏
- 关注
原创 论文笔记——News Recommendation with Topic-Enriched Knowledge Graphs
文章目录AbstractAbstract概述引用论文中的一句话,新闻推荐系统的目标是处理大量的新闻以及给用户提供个性化的新闻推荐。动机新闻的标题中蕴含着丰富的实体信息以及话题信息,但是现有的模型通常忽略了实体信息与话题信息之间的关联,所以本篇paper提出了一个新的模型TEKGR(引入了知识图谱)模型简介TEKGR从两个方面处理Title:(1)只从Title的单词中提取新闻的语义信息(2)通过知识图谱(考虑话题、实体以及文本信息的关联)来对新闻的语义信息进行又一次提取实验证明该模型优
2020-10-28 23:26:51 1030 2
原创 论文笔记——Attention Is All You Need(Transformer)
文章目录动机模型总结之前看了Google发表的Transformer的相关论文,虽然距离论文发表已经过去了三年,但是Transformer的效果仍然没有被超越。为了让自己之后能够迅速回忆起Transformer的相关内容,所以记录了这篇论文笔记记录一下自己阅读论文的笔记。动机在Transformer提出之前,正常情况下都是使用RNN模型来处理机器翻译任务。使用RNN来做机器翻译任务存在两个缺点:(1)由于输入的sequence长度很长,所以对于当前词来说对其影响最大的是邻近的词。但是一个句子中对一个
2020-10-26 17:00:17 223
原创 NewsRecommendation
文章目录简介问题定义背景Problem Definition评价指标数据集已有的模型简介NewsRecommendation是Recommendation的一个子领域,但是新闻推荐系统不同于其他的推荐系统,还需要对新闻文本进行处理,之前NewsRecommendation这个领域没什么进展是因为缺乏相关的数据集,Microsoft最近刚刚开源了MIND数据集,可以使用MIND数据集来研究新闻推荐系统的相关模型算法***关于MIND数据集的介绍可以参考这篇paper:MIND: A Large-scal
2020-09-06 19:19:23 2099 5
原创 论文笔记——Fine-grained Interest Matching for Neural News Recommendation
目录AbstractAbstract
2020-08-06 12:47:32 887
原创 Pytorch框架搭建
PyTorch实战框架搭建本文是简单记录一下PyTorch的框架搭建思路,以便以后能够查看这个框架搭建的思路快速上手实验本文参考了PyTorch实战本文按照以下思路组织:PyTorch框架的搭建思路代码框架结构心得PyTorch框架的基本搭建思路深度学习模型训练的思路准备数据构建模型训练模型组织一个深度学习框架,按照模型训练的思路可以将框架各个模块需要实现的功能归纳如下:数据预处理以及加载模型的构建训练模型(Train)训练过程的可视化测试深度学习框架组织出来还
2020-07-27 11:48:46 691
原创 新闻推荐数据集MIND介绍
新闻推荐数据集介绍本篇博客介绍的是微软刚刚开源的数据集MIND,关于MIND的介绍可以看这个:微软关于MIND数据集的介绍MIND数据集简介MIND即MIcrosoft News Dataset的简写,MIND数据集是用来做新闻推荐研究,MIND里的数据来自Microsoft News用户的行为日志。MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。MIND数据集的构造MIND数据集的构造:在2019年十月12号到11月22号这段时间内随机抽取1,0
2020-07-25 11:45:13 5721 6
原创 Time Limit Exceeded的原因
今天做了一道水题,但提交的时候一直显示Time Limit Exceeded后来百度了一下发现只要将cin替换成scanf就可以了。相较于c++的cin cout,C语言的scanf和printf会减少时间特别是在输入值过多时。可以参考以下这篇博客关于Time Limit Exceeded可能的原因...
2020-05-14 18:04:52 1456
原创 Python搭建虚拟环境
Python搭建虚拟环境是非常有必要的,因为不同的项目总有可能出现使用不同版本的第三方库,下面就记录一下如何搭建Python的虚拟环境
2020-04-09 22:47:48 97
原创 Python处理数据匹配问题
参考博客:Python做数据匹配最近做了一个数据匹配的小任务,记录一下实现的过程以便以后用到的时候能够查看简单来说,数据匹配就是对数据库做join操作,将几个数据库做inner join基本的操作学习可以参考上面的博客链接,对Pandas这个第三方库有很好的介绍。更加详细的资料可以参考Pandas中文文档下面记录一下项目的实现过程任务需要:总共要处理三份数据,就是连接三份数据。pap...
2020-04-09 16:18:18 2094
原创 Jupter的使用教程
因为不想使用大型的IDE,比如Pycharm非常的笨重,同样不喜欢交互式界面那样枯燥的一条一条敲代码的步骤。极其的繁琐。所以开始使用Jupter的这个交互式界面,看着舒服,还有各种插件。如何安装网上有大量的教程,简洁明了,这里也不再赘述。Jupter的打开方法非常简单,在命令行敲入如下命令就OK了。$ipython notebook接下来就是快捷键的使用方式,图形化界面的功能键都有注释也...
2020-04-08 14:43:31 2013
原创 ML技法之神经网络
前言:因为之后面试可能会用到ML的知识,而又不想跟之前一样看了课程视频不进行记录,这样很快就会将知识遗漏,所以这里记录一下机器学习的知识方便后期巩固,这里主要来自于ML的经典课程——NTU的林轩田老师。以下内容来自于技法课程的第12节:...
2020-04-08 14:35:06 165
原创 百练4017
** 这道题真的水,当做复习C++**代码如下:#include<iostream>using namespace std;int count;int N;void dfs(int x){ if(x>N) return; if(x==N){ count++; return; } dfs(x+1); dfs(x+2);}int main(){...
2020-04-07 23:47:53 130
原创 Git的简单使用
经常使用Github,对Git也听过很多次,但一直没有学习过如何使用。花了两周的时间学习了Git的使用,这里记录一下指令方便后期使用。当然Git的图形化界面也是非常好用的,省去命令行的大量重复的commit。SourceTree是一个较为好用的图形化界面。当然Git的基本指令还是得会用的,这里简单记录一下以便后期的使用。直接上代码图:...
2020-04-07 12:15:47 76
原创 简介
最近在看斯坦福李飞飞的CS231n,这是一门入门神经网络以及计算机视觉非常好的一门课,鉴于网上很多人都推荐这门课,所以准备做一些简单的记录,以便后期的巩固...
2020-04-07 11:40:14 91
原创 机器学习
最近在看吴恩达的机器学习还有林轩田的机器学习,开始的时候先看的是林老师的机器学习,感觉数学原理实在是过于复杂,有些地方难以理解,所以觉得非常有必要写笔记来记录一学习过程,这在后期的学习也是非常有用的。...
2020-04-07 11:37:14 98
原创 Python记录
因为Python具有很多高级特性,所以需要记录一下Python的for循环Python具有很多高级特性,这里记录一下以便后期使用:Python的for#正常的for循环在c++等语言都经常出现#python的生成for#eg.在文件中的生成,使用rangefor line in [文件]:for i in range(10):#i=1,2,3...,9for i in range...
2020-04-06 18:55:28 88
原创 WSL的管理
安装了一个子系统ubuntu18.04记录一下使用方法各种界面优化以及下载的问题都可以参见这边文章,详细安装WSL记录一下使用的命令:Xming的使用图形化显示:DISPLAY=:0 geany(应用名)Xwindow的使用命令:export DISPLAY=localhost:0ccsm设置好后:命令:compiz...
2020-04-02 23:37:04 520
原创 Python爬虫
用Python爬取网页数据通常使用两个库:requests和BeautifulSoup安装很容易pip就行了#导入包import requestsfrom BeautifulSoup import BeautifulSoup as BS主要记录一下.text的用法解释:在看代码的过程中.text无法看懂是什么意思.text就是解析html文件的过程中将文本内容进行拼接,其实就是去...
2020-03-31 12:57:52 83
原创 Python并行化
futures包的使用当处理的数据很小时大可不必考虑并行的问题,但是一但处理可并行化的任务以及大文件时,让程序并行化无疑能提高很大的性能。需要并行的任务很多,比如IO密集型的爬数据,读写磁盘等,CPU计算密集型的计算任务等等。而Python由于GIL的原因,默认情况下只能单线程运行,无法直接利用硬件的多核多线程,因此效率较低,python也早提供了一些列的多线程多进程的库可以用来使用,比如mu...
2020-03-31 12:33:10 260
原创 pip使用
pip指令失败的解决通常情况下python3自带的pip模块总是会出问题要么速度过慢要么报错#常规指令经常失败pip install XX解决方案一、从两个网址中找到自己需要的包下载到本地Python安装包和Pypi#安装命令pip install 文件的路径解决方案二、通常一的方法仍然很慢,第二种方案就是将包源更改更改成其他镜像网站网上有很多可用的源,例如豆瓣和清华镜像...
2020-03-31 12:24:54 184
原创 Python做数据处理
Python做数据匹配一、需要满足的需求:将两个数据库进行内联二、需要用到的包:pandas、fuzzywuzzy(进行字符串的模糊匹配)安装非常容易pip一下就完事了Pandas用于数据库的处理等都非常的方便通常的用法是pandas将数据库数据封装进DataFrame对象pandas#导入pandas包的标准用法import pandas as pdpandas的具体函数使...
2020-03-31 11:51:34 137
原创 Python踩坑记录
一、#正确导入secure_filenamefrom werkzeug.utils import secure_filename#直接从werkzeug导入会报错#from werkzeug import secure_filename报错
2020-03-14 14:55:15 90
原创 Python进行科学计算
首先是各种包的安装:在Python Packages的官网中下载相应的文件然后使用pip指令安装pip install '文件的绝对路径'//相较于直接使用pip install 包名 该方法正常不会报错...
2020-03-03 22:40:38 200
原创 数据驱动的分类方式
Image Classification这节课的几个问题Q1: how does the classification speed depend on the size of the training data?A1:当训练集的规模变大时训练时间是线性变慢的。Q2:what is the accuracy of the nearest neighbor classifier on the...
2020-03-03 21:00:47 1075
原创 CS231n课程学习总结
Standford CS231n简介:CS231n全称是面向视觉领域的卷积神经网络。这是一门很好的入门深度学习的课程。后续内容随着学习进度更新
2020-03-02 23:38:41 316
原创 Python访问数据库
使用SQLiteSQLite是一种嵌入式数据库,数据库就是一个文件。要操作关系型数据库,首先需要连接数据库,一个数据库连接称为Connection;连接到数据库后需要打开游标——Cursor,通过Cursor执行Sql语句,然后获得执行结果。数据库要连接到Python只需要提供符合Python标准的数据库驱动即可。Python标准库中有SQLite的驱动内置,所以可以直接操作SQLite数...
2020-03-01 16:19:27 209
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人