自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

乌云压顶是吧

很高兴不认识你

  • 博客(37)

原创 利用预训练语言模型拓展实体集合

???? Reading Group 的 pdf 版本今天介绍一个小众的 Task, 实体集合拓展(Entity set expansion).Empower Entity Set Expansion via Language Model Probing. ACL 2020.Yunyi Zhang, Jiaming Shen, Jingbo Shang, Jiawei Han任务的目标是拓展原有的实体集合,向其中添加相同类别的实体,注意这里的实体类别一般不是传统的 7 大 NER 类别,更偏向 Fi

2020-06-15 01:03:10 181

原创 试谈语言模型中无监督非结构化知识融入
原力计划

???? Reading Group 的 pdf 版本 blog 版本结构化/纯文本之前的一系列将知识融入 BERT 的工作大多基于 entity 三元组这种结构化数据.这就要求有大量且高质量的人工标注(当然我们有 HowNet, WordNet, WikiData), 人工标注必然出现大量噪声, 结构化数据更新周期普遍更长.MLM 的无监督是否是无监督的极限(当然 ERNIE 2.0 ...

2020-04-07 00:12:18 94

原创 预训练模型中的可插拔式知识融入-利用Adapter结构

这些天冲浪 ???? 了一下 Arxiv,粗翻了一下二月之后 public 的 NLP 文章(有很大一部分是准备投 ICML 的)。也拜读了 张驰原 dalao 的新作《Exploring the Memorization-Generalization Continuum in Deep Learning》. (实验真的做的很漂亮,但感觉有点 data-special 不知道能不能推广到 NLP)...

2020-03-09 01:45:58 473 1

原创 Transformer结构中获得相对位置信息的探究

传送一下知乎“原来你还关注了这个专栏”“这个博主还能敲键盘呀”没错,时隔半年,终于终于要更新了 ????(主要是我太咸鱼了这次主要讨论一下如何增强 Transformer 结构对获取相对位置信息的能力(即 Relative Position Embedding in Transformer Architecture)。Background事实上,Transformer 是一种建立在 ...

2019-12-30 14:52:47 833

原创 多核操作系统中的自旋锁-『以XV6 & Linux 为例』

多核操作系统中自旋锁机制分析

2019-06-03 14:32:58 329

原创 Linux批量配置神器zsh.sh

Linux 批量配置zsh脚本zsh.sh

2019-05-02 03:19:52 155

原创 DeeCamp 2019 Exam A 纪实

DeeCamp Exam A 2019-04-27Radio: 5blank: 5QA: 1Time: 90min总的来说,感觉比去年简单多了(害啪

2019-04-29 11:44:53 751 4

原创 究竟是道德的沦丧,还是现实的骨感,让携程反爬工程师在代码里写下这句话-『爬虫进阶第二弹』

js逆向实战

2019-04-22 13:06:10 1506 5

原创 你已经是一个成熟的爬虫了,应该学会自己去对抗反爬码农了

爬虫skill

2019-04-06 18:41:41 1077 3

原创 数一数Linux中有多少种线程同步策略-『Linux 源码解析(二)』

点这里排版好本来这篇应该是上周发的,拖延症又犯了

2019-03-25 00:18:36 104

原创 试谈Linux下的线程调度-『Linux 源码解析(一)』

点这里排版好一点开学之后,作息一直很局促,喘不过气来借着高操这门课,应该会把Linux源码好好读一读今天先借胆来谈一下Linux下的线程调度策略PS: 以下解析的Linux kernel版本号为4.19.25Thread scheduleMotivation首先,为什么要有线程调度这种东西主要是因为人民日益增长的CPU需求和同落后的I/O速度之间的矛盾为了不让没准备好的CPU...

2019-03-11 01:23:34 891

原创 浅谈多轮检索式对话最近的两篇SOTA-『MRFN』&『IMN』

多轮检索式对话new SOTA review

2019-02-05 23:20:57 1389 2

原创 直男届的杀手-『小冰』架构解析

小冰架构综述

2019-01-02 17:52:56 546

原创 如何给码农的Mac开光

mac配置教程

2018-12-26 23:13:21 742

原创 如何用NLP技术和标题党说拜拜-文本摘要

文本摘要综述

2018-12-24 17:31:31 1673

原创 numpy 最后一卷

点这里排版更好This is a note for numpy-1001. np.add.reduce() > np.sum() * np.sum(Z) # 调用np.add.reduce()实现 * np.add.reduce(Z) # 在reshape的时候会产生一个数组 * np.logical_and.reduce(arr3[:, :-1]<a...

2018-12-19 13:43:56 93

原创 从ECMo、Bert看Word Embedding

从ECMo, Bert 看Word EMbed 发展史

2018-12-08 22:56:53 319

原创 底层码农眼中的芯片

底层码农眼中国内国际芯片行业的压子

2018-12-06 22:27:32 505

原创 In-Memory DBMS 『Peloton』技术简述

本文为Relaxed Operator Fusion for In-Memory Databases: Making Compilation, Vectorization, and Prefetching Work Together At Last[Menon, P. et al. 2017]的简述

2018-12-05 00:40:37 159

原创 检索式人工智障识记

多轮检索式对话模型综述

2018-11-17 00:22:59 405

原创 关于VSM性能优化的思考

blog可能排版更好点GithubUpdate 一下跟室友讨论了一下 才发现有一些我以为很理所应当的点 才是优化的关键 (当然你们看我的code应该也能看出来 只是没点明白)Optimize Point不要试图去开大数据量的二维数组一旦你初始化一个3k✖️3k的数据 你就会发现即使你只是读一下这个数组就会死慢死慢 还要频繁写入 效率可想而知正确的姿势 应该是开一个一维的数组 然...

2018-11-15 00:27:05 253

原创 大图中如何快速计算PPR

大图中计算Person PageRank

2018-11-07 19:32:14 472

原创 试谈`RNN`中`门`的变迁

博客引流终于发完proposal 的邮件 深吸一口气希望明天不要被怼的太惨已经连续~~高强度(hua shui)~~看paper n天了一切 索然无味随着看到的paper层次越来越高就越发羡慕搞NLP的昨天还在跟室友说 一开始觉得写SMN的WuWei dalao指不定是个中年油腻大叔结果人家研究生还没毕业哇 满脸的羡慕言归正传 打算用两三篇blog 讲一下最近学习的多轮检索式对...

2018-11-04 22:05:47 170

原创 如何优雅的理解PageRank

博客引流终于Tex调好了 刚好最近又多次提及PageRank 于是~目测这一系列 有个两三篇blogPageRank 是 由佩奇(Larry Page)等人提出 的 Google 最为有名的技术之一我 乔治 甘拜下风PageRank 是一种基于随机游走 的 评价网站权值的算法言而总之 PageRank是一种十分重要的算法 不管在学术界 还是在产业界Node Similarity ...

2018-10-31 01:24:38 3476

原创 brew | brew cask | yum | apt-get

博客引流用过Mac的肯定 或多或少的 用过 brew这个命令在我之前的印象里 这个命令就好像Ubuntu里的apt-getCentos里的yum都是属于那种Linux下包管理器那他们之间有什么区别呢?先下结论:源码包安装: brew二进制包安装: yun | apt-get源码安装首先回顾一下什么是源码安装从命令上来看源码安装一般形式如下:wget https://xxx...

2018-10-26 16:41:21 314

原创 Frequent Pattern

博客引流作为Data mining 的第一篇 先来讲讲频繁模式频繁模式是推荐算法的基础主要解决的是从一堆数据中挖掘出频繁的组合模式举个简单的例子可能买了Mac的人,过几天会去买贴膜可能买考研英语书的人,过几天会去买考研数学书如何在大量数据中找到可能相关的几个问题,称之为Frequent Pattern频繁程度通过支持度、置信度两个参数来衡量A->B support: 即模式...

2018-10-26 16:38:01 383

原创 『Hadoop』MapReduce 处理 日志log(单机版)

『Hadoop』MapReduce 处理 日志log(单机版)博客引流本文为Hadoop单机版,伪分布版请移步『HDFS』伪分布式Hadoop集群10.2晚又出现上次CPU打满于是痛定思痛 检查了下业务流程发现处理日志和build两块很吃内存尤其是日志处理,随着日志量的增大,不可避免的是处理越来越慢,对性能要求越来越高这个时候不免想到利用MapReduce对处理过程进行分布式操作S...

2018-10-26 16:34:00 381

原创 nohup

nohupnohup = no hang up作用在当用户从终端页面退出时,程序任务仍可以保持运行那为何nohup可以实现这个功能呢Ps:这篇可能会比较硬,写(chao)的时候也是头疼的很,感谢山川dalao的解惑文档signal在讲之前,我们需要对Linux的信号处理体系有一点了解Signal是在一种软件体系下对中断的模拟,所以也被称为软中断。Signal是进程间通信机制中唯...

2018-10-25 13:07:50 683

原创 『HDFS』伪分布式Hadoop集群

『HDFS』伪分布式Hadoop集群博客引流本文是『Hadoop』MapReduce 处理 日志log(单机版)的旭文, maybe还有后续在搭建环境的时候发现很难搜到合适的教程,所以这篇应该会有一定受众伪分布式就是假分布式,假在哪里,假就假在他只有一台机器而不是多台机器来完成一个任务,但是他模拟了分布式的这个过程,所以伪分布式下Hadoop也就是你在一个机器上配置了hadoop的所有节...

2018-10-25 13:05:22 120

原创 自动更新网站访问量的定时脚本

自动更新网站访问量的定时脚本博客引流原理:Nginx会把访问日志写入access.log当然 这不是 本文的重点这种东西Google一下,一大堆本文要实现的功能获取总page view,注意去重,同一ip只记录一次获取时间段中的page view脚本化(时间变量化,写入文件自动化)定时任务总PVawk '{print $1}' /usr/local/nginx/logs/...

2018-10-25 13:02:57 617

原创 2>&1

2>&1博客引流初识这个命令的时候,还是山川dalao帮我在开发机上部署java程序时,打印日志的时候使用的当时觉得 这 2 呀 1 呀 & 什么的 怕不是位运算?怎么就变成打印日志了内心毫无波澜的仰慕后来自己在ECS上打印日志的时候也用到过这个命令,想还是深究一下这个问题懒癌晚期的我就cope了一个例子nohup command>/dev/null 2&...

2018-10-25 13:00:01 200

原创 从日志中识别 Spider

从access.log中识别 Spider博客引流前面讲了如何利用脚本统计PV、UV,如何利用MapReduce对日志处理进行分布式操作再继续探讨Hadoop全家桶之前,先把bash脚本做进一步优化维护一个网站 真的很累尤其是 一天都没几个访问量的时候心塞塞

2018-10-25 12:54:06 135

原创 `Innodb` MySQL中如何优雅的删除大表跑路

Innodb MySQL中如何优雅的删除大表跑路

2018-10-25 12:49:36 803

原创 Nginx 调优

Nginx 调优博客引流环境:Ubuntu18.04.1 LTS - aliYunnginx/1.15.3openssl 1.1.1目前已经资瓷Https,Http2.0,TLS1.3,HSTS,控制一定时间内请求数等功能HTTPSHTTPS本质上是一个公钥和私钥的配对过程,其通过SSL/TLS协议实现,通常只对服务器端进行效验HTTPS配置就是配置证书配置HTTPS主要是...

2018-10-25 12:46:29 698 2

原创 Netease Music Spider

Netease Music Spider博客引流这篇只是入门篇,进阶请移步Netease Music Spider for DB爬虫是很久之前 就想研究的一个问题但因为懒 嗯 懒最近经常有一些写爬虫的新手 找我的网站练手看着日志 表示很难受 所以决定自己来研究一下如何来写爬虫~~(我不会说这是作业的)~~本文对近2w个热门歌单的3024511首歌曲数据进行爬取及分析为什么选择爬网易...

2018-10-25 12:43:42 220 2

原创 利用Gitalk给Vuepress搭建的blog增加评论功能

Using Gitalk support comment for Vuepress这两天折腾了一下comment功能自己写花的代价肯定更大所以选择用组件目前用的比较多的有Gitalk GitmentGitment因为实践之后不能评论(可能是很久没人维护了)于是最后选择更实(hao)用(kan)的GitalkOAuth applicationGitalk, Gitment 都是基于G...

2018-10-25 12:39:15 1826

原创 从高可用IP代理池到千万级网易云音乐数据爬取的实现

千万级网易云音乐数据爬取实现

2018-10-25 12:32:56 660 2

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除