- 博客(13)
- 资源 (14)
- 收藏
- 关注
原创 网络流量领域公开数据集及工具库
流量分类领域数据集本博客持续更新,收集平常读论文时提高的公开数据集和工具库。数据集详情http://traces.cs.umass.edu/index.php/Network/Network 系列:这个网站提供了该学院很多数据集,这些数据集是他们发表论文时提取的,然后公开出来。WebIdent 2 Traces数据集描述:A collection of traces of web reque...
2019-05-29 10:35:32 45241 41
原创 pyautogui 自动化 控制 Anydesk 远程桌面,无法键盘输入
安装了一个Anydesk ,可是发现不能通过Anydesk对远程主机的文档进行修改,具体表现为在anydesk中 键盘输入无效。解决方法:把本地主机的输入法和系统语言都改成 英语,重启系统即可。...
2019-05-24 07:14:15 15486 2
原创 MongoDB 2.4.10 修改TTL超时删除时长
有的时候,需要修改TTL的超时删除时间长度。方法:pymongo方法:mongoclient.db.command({"collMod":表名,"index":{"keyPattern":{TTL索引列名:0或1表示索引是增排序还是降排序},"expireAfterSeconds":新的超时时间}})Mongo 交互式方法:db.runCommand({"collMod":"c...
2019-05-18 10:11:15 1472
原创 安装pyautogui提示UnicodeDecodeError: 'gbk' codec can't decode byte 0xa2 in position 905: illegal multiby
解决方法:pip3 install --upgrade pippip3 install pygetwindow==0.0.1pip3 install pyautogui
2019-05-17 15:47:49 556
原创 Locality Sensitive Hashing 局部敏感哈希算法之Min Hashing
简介本人之前接触的Hash函数主要是密码学里面哈希函数,这些哈希函数追求单向性和随机性。单向性是值给定key,y=Hash(key)y=Hash(key)y=Hash(key) 是容易计算的,但是给定yyy,计算对应的key却是困难的。随机性是指,在密码学的哈希函数里面,出于抵御统计攻击的考虑,只要key1key1key1 和 key2key2key2 只要有一比特的不同,那么这两个key 哈希...
2019-05-16 17:41:58 1135 1
原创 ccmt2019——sgm文件解析
ccmt2019的开发集和测试集使用sgm文件给出的,它其实就是一个xml文件,使用python的lxml解析即可。坑点:官方给的xml有毒,有些特殊符号需要自己转换,例如:&。需要先手动把所有的&替换为&注意要核对docid和seg id,存在源语中有 而目标语没有的情况。这一点比较坑。__author__ = 'jmh081701'from xm...
2019-05-13 00:52:21 2212
原创 python error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"
安装Microsoft visual C++ Build Toolspip3 install -U setuptool
2019-05-12 21:40:12 285
原创 linux-0.12源码分析——缓冲区等待队列(栈)sleep_on+wake_up分析
今天,我们来看一个有趣的东西,那就是中当有多个进程去读或写同一个文件,然后被这个文件对应的同一个缓冲区阻塞时,linux-0.12是如何把这些进程给阻塞起来,同时又是如何把被阻塞的进程一一唤醒。从一个奇怪的地方说起我们来看buffer-head的结构include\linux\fs.hstruct buffer_head { char * b_data; /* pointer to ...
2019-05-12 13:12:29 690 7
原创 ccmt2019-0512-使用bpe+word2vec 进行语料的预处理
接下来就是使用bpe对语料进行编码,以解决部分的登录词。首先,把所有的英文语料汇总起来放在同一个文件en.txt,把所有对应的中文平行语料也放在一起得到cn.txt。注意合并后需要检查下这两个文件各个句子之间是否对齐。然后使用subword-nmt工具进行bpe的编码。__author__ = 'jmh081701'import osdirectory=".//corpus//"...
2019-05-12 07:25:55 1386
原创 ccmt2019-0511-语料的预处理
今天主要就是使用moses把英文语料做一些预处理,主要是做tokenize。tokenize的作用:在语料的单词和单词之间或者单词和标点之间插入空白,然后进行后续操作。moses的安装:安装基础库sudo apt-get install build-essential git-core pkg-config automake libtool wget zlib1g-dev pytho...
2019-05-11 12:05:03 1015 3
原创 再看Tensorflow 里面的Graph 和Session
前言今天深度学习课上老师着重讲了tensorflow里面的graph和Session的关系,这勾起了我的很多记忆,以前初学tensorflow的时候 那些概念都没有理解的很透彻,现在再来集中的总结一下。Graph在分布式系统中,人们经常使用计算图来表示并行计算模型。计算图是一个有向图,图里面有节点和有向边。在计算图里面,节点表示"计算"单元,有向边表示数据的流动关系或者依赖关系。不过在te...
2019-05-10 00:06:59 1192
原创 glibc 堆溢出
glibc与堆相关的数据结构堆是通过malloc_chunk结构体来维护的:struct malloc_chunk { INTERNAL_SIZE_T mchunk_prev_size; /* Size of previous chunk (if free). */ INTERNAL_SIZE_T mchunk_size; /* Size in by...
2019-05-06 07:36:16 886
定制版LightGBM
2018-06-24
深度学习_高清PDF,带书签目录
2017-10-15
神经网络在艺术风格上的学习应用
2016-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人