自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

转载 docker命令

1.查看image[root@ ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEk1995/scrapy-cluster cralwer-2.0.4 e3be52ca0a5a 2 days a...

2018-01-15 09:15:00 167

转载 NLP | 自然语言处理 - 语言模型(Language Modeling)

转:http://blog.csdn.net/lanxu_yy/article/details/29918015为什么需要语言模型?想象“语音识别”这样的场景,机器通过一定的算法将语音转换为文字,显然这个过程是及其容易出错的。例如,用户发音“Recognize Speech”,机器可能会正确地识别文字为“Recognizespeech”,但是也可以不小心错误地识别为“Wrenc...

2017-12-16 14:04:00 277

转载 windows: Python安装scipy,scikit-image时提示"no lapack/blas resources found"的解决方法

解决方案:最后,解决我遇到的这个问题的解决方案是来自以下链接的答案:http://www.voidcn.com/blog/z6491679/article/p-5740396.html。另外还有一个类似的回答的链接:http://www.cnblogs.com/eastmount/p/5052871.html#3376247最终,我并没有去编译源代码,而是将先前安装的num...

2017-09-10 14:39:00 268

转载 Sense2vec with spaCy and Gensim

如果你在2015年做过文本分析项目,那么你大概率用的是word2vec模型。Sense2vec是基于word2vec的一个新模型,你可以利用它来获取更详细的、与上下文相关的词向量。本文主要介绍该模型的思想以及一些简单的实现。多义性:word2vec遇到的问题当人们编写字典和辞典时,我们会列出每个词语的不同含义。在自然语言处理过程中,利用文档的统计信息来定义词典的概念往往非常有效,...

2017-05-26 09:32:00 225

转载 python 去停用词

Try caching the stopwords object, as shown below. Constructing this each time you call the function seems to be the bottleneck. from nltk.corpus import stopwords cachedStopWords = sto...

2017-05-25 09:20:00 1954

转载 nohup command > myout.file 2>&1 &

nohup command > myout.file 2>&1 &转载于:https://www.cnblogs.com/Donal/p/6900228.html

2017-05-24 17:55:00 206

转载 NLTK vs SKLearn vs Gensim vs TextBlob vs spaCy

Generally,NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.)Sklearn is used primarily for machine learning (classification, clustering, etc.)Ge...

2017-05-24 15:13:00 304

转载 Gensim进阶教程:训练word2vec与doc2vec模型

转自:公子天的技术博客http://www.cnblogs.com/iloveai/本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现。Word2vecWord2vec并不是一个模型——它其实是2013年Mikolov开源的一款用于计算词向量的工具。关于Word2vec更多的原理性的介绍...

2017-05-24 14:49:00 211

转载 Gensim入门教程

转自:公子天的技术博客What is Gensim?Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。基本概念语料(Corpus):一组原始文本...

2017-05-24 14:48:00 931

转载 使用pdb调试python

方法:运行 python -m pdb myscript.py(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h说明下这几个关键 命令<断点设置(Pdb)b 10 #断点设置在本py的第10行或(Pdb)b ots.py:20 #断点设置到 ots.py第20行删除断点(Pdb)b #查看断点编号(Pdb)cl 2 #删除第2个断点<运行(Pdb)n...

2017-05-24 09:52:00 67

转载 git只clone仓库中指定子目录

基于sparse clone变通方法[root@vm_test backup]# mkdir devops[root@vm_test backup]# cd devops/[root@vm_test devops]#git init #初始化空库Initialized empty Git repository in /backup/devops/.git/[root@vm_t...

2017-05-24 09:24:00 612

转载 转:深度学习与自然语言处理之五:从RNN到LSTM

原文地址:http://blog.csdn.net/malefactor/article/details/50436735/大纲如下:1.RNN2.LSTM3.GRN4.Attention Model5.应用6.探讨与思考转载于...

2017-05-18 16:04:00 91

转载 转:如何构建爬虫代理服务?

起因做过爬虫的人应该都知道,抓的网站和数据多了,如果爬虫抓取速度过快,免不了触发网站的防爬机制,几乎用的同一招就是封IP。解决方案有2个:1、同一IP,放慢速度(爬取速度慢)2、使用代理IP访问(推荐)第一种方案牺牲的就是时间和速度,来换取数据,但是一般情况下我们的时间是很宝贵的,理想情况下是用最短的时间获取最多的数据。所以第二种方案是推荐的,那么...

2017-02-09 10:36:00 96

转载 RHEL7下安装使用TensorFlow和kcws

0.安装依赖包#用pip安装python科学计算库numpy,sklearn,scipysu -wget http://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-release-7-8.noarch.rpmyum install epel-release-7-8.noarch.rpmyum install python...

2016-11-30 10:39:00 79

转载 RHEL7 -- Linux搭建FTP虚拟用户

安装vsftpd软件包[root@localhost ~]# yum install vsftpd -y [root@localhost ~]# yum install db4 db4-utils建立vsftpd服务的宿主用户[root@localhost ~]# useradd vir -s /sbin/nologin 创建日志文件[root@localhost ~]# tou...

2016-07-14 11:57:00 139

转载 解决windows10搜索不到内容的问题

windows 10的搜索突然搜不到程序了,网上查询说要重建索引,方法如下:1.按ctr+R键,输入%LocalAppData%\Packages\windows.immersivecontrolpanel_cw5n1h2txyewy\LocalState2.右键打开Indexed文件夹的属性,选择高级属性,勾选掉“除了文件属性外,还运行索引此文件夹中文件的内容”,应用...

2016-07-14 11:22:00 665

转载 forward和redirect 的区别

一、使用区别1.从地址栏显示来说 forward是服务器请求资源,服务器直接访问目标地址的URL,把那个URL的响应内容读取过来,然后把这些内容再发给浏览器.浏览器根本不知道服务器发送的内容从哪里来的,所以它的地址栏还是原来的地址.redirect是服务端根据逻辑,发送一个状态码,告诉浏览器重新去请求那个地址.所以地址栏显示的是新的URL.2.从数据共享来说 forward:转发页面...

2016-04-08 23:26:00 71

转载 RHEL7磁盘分区挂载和格式化

安装大数据平台,每台机器需要挂载10个磁盘,用JBOD模式,操作系统为RHEL7.2。写了两个脚本,format_disk.sh和mount_disk.sh实现磁盘自动分区格式化以及挂载,修改fstab。format_disk.sh#!/bin/bashdisks=(sdb sdc sdd sde sdf sdg sdh sdi sdj sdk)for ((i=0...

2016-02-29 09:48:00 291

转载 Spring注解

概述注释配置相对于 XML 配置具有很多的优势:它可以充分利用 Java 的反射机制获取类结构信息,这些信息可以有效减少配置的工作。如使用 JPA 注释配置 ORM 映射时,我们就不需要指定 PO 的属性名、类型等信息,如果关系表字段和 PO 属性名、类型都一致,您甚至无需编写任务属性映射信息——因为这些信息都可以通过 Java 反射机制获取。注释和 Java 代码位于一...

2015-12-28 14:17:00 45

转载 100 open source Big Data architecture papers for data professionals

100 open source Big Data architecture papers for data professionals.Jun 18, 2015https://www.linkedin.com/pulse/100-open-source-big-data-architecture-papers-anil-madanBig Data technology...

2015-12-10 23:20:00 223

转载 ganglia 无数据问题解决

用ambari安装了HDP版本的hadoop,dashboard中ganglia的CPU、内存、网络等监控没有数据,找了很多原因,最后发现是因为rrdcache的时间问题导致的。gmetad的debug信息显示:RRD_update (/var/lib/ganglia/rrds/__SummaryInfo__/bytes_in.rrd): /var/lib/ganglia/rrd...

2015-05-06 13:21:00 496

转载 RHEL6彻底禁用ip6的方法

一、vi /etc/modprobe.d/disable-ipv6.conf(名字随便起)(RHEL6.0之后没有了/etc/modprobe.conf这个文件)输入:install ipv6 /bin/true二、vi /etc/sysconfig/network在最后增加一句:IPV6INIT=no三、禁用ipv6的iptables在终端运行:chkcon...

2015-05-05 11:46:00 77

转载 vmware下linux 如何添加硬盘

1.在虚拟机的设置中增加一块硬盘。 setting -> add disk -> create a new virtual disk -> SCSI 设定大小,这里给3G;更改名称,我这个硬盘用来安装Oracle ,名字为oradata.vmdk2.格式化硬盘。[root@libydwei ~]# fdisk -l /dev/sdb...

2015-04-23 16:03:00 61

转载 Oracle表空间扩展

From:http://blog.csdn.net/starnight_cbj/article/details/73981531.查看所有表空间使用情况select b.file_id 文件ID号, b.tablespace_name 表空间名, b.bytes/1024/1024||'M'字节数, (b.bytes-sum(nvl(a.bytes,0)...

2015-04-23 15:57:00 56

转载 转:昨天去参加adobe AIR发布会

昨天去参加adobe AIR发布会 2008-03-05 12:23 12547人阅读 评论(33) 收藏 举报adobeairsliverlightwpf微软互联网首先申明:我不是adobe雇佣的枪手,我也从不认识adobe的人。我只是一名被C/S和B/S长期困扰希望寻找一套解决方案的人。昨天去参加了adobe AIR 发布会adobe是业界著名的客户端展现工具和...

2013-10-20 23:21:00 94

转载 T(n) = 25T(n/5)+n^2的时间复杂度,笔试啊笔试!

对于T(n) = a*T(n/b)+c*n^k;T(1) = c 这样的递归关系,有这样的结论:if (a > b^k) T(n) = O(n^(logb(a)));logb(a)b为底a的对数if (a = b^k) T(n) = O(n^k*logn);if (a < b^k) T(n) = O(n^k);a=25; b = 5 ...

2012-10-15 11:29:00 415

转载 分布式一致性算法 之 Paxos算法

http://zh.wikipedia.org/zh/Paxos%E7%AE%97%E6%B3%95转载于:https://www.cnblogs.com/Donal/archive/2012/08/30/2663646.html

2012-08-30 14:06:00 49

转载 自回归模型

回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析AR模型 AR模型,即自回归(AutoRegressive, AR)模型又称为时间序列模型,数学表达式为  ...

2012-08-23 10:52:00 761

转载 Hadoop 运行 c++ 程序实验

假设有C++程序boss.exe, 其执行格式如下(第一个参数是输入文件,第二个参数是输出文件):./boss.exe ADDRESS_BOOK_FILE NEW_ADDRESS_BOOK_FILE现在需要在hadoop的Map函数中启动boss.exe,其输入输出文件均在HDFS中,格式为:hdfs://127.0.0.1:8020/user/donal/addre...

2012-03-09 16:44:00 128

转载 protobuf 测试 & ant build.xml

前面测试完了protobuf的c++tutorial,接着测试一下java tutorial,已经ant的build.xml文件编写。根据./proto/目录下的addressbook.proto( 内容请参考tutorial)生成.java文件,放到./java/src目录下$ protoc -I=./proto --java_out=./java/src ./proto/...

2012-03-08 15:11:00 77

转载 protobuf 测试 & Makefile example

很久没有写C++程序了,很多东西都忘了,几天试了一下protobuf的tutorial,顺便写了Makefile:根据./proto/目录下的addressbook.proto( 内容请参考tutorial)生成.cc和.h文件,放到./cpp/proto/目录下$ protoc -I=./proto/ --cpp_out=./cpp/proto/ ./proto/addre...

2012-03-08 13:51:00 181

转载 java调用外部程序的方法

想在hadoop的map方法中启动外部的c++进程,研究一下java怎么启动外部进程。转自:http://gundumw100.iteye.com/blog/4386961 java调用外部程序的方法 在一个java应用中,可能会遇到这样的需求,就是需要调用一些外部的应用做一些处理,比如调用excel,然后在继续程序的运行。 下面就开始进入java调用外部程序的一些演示,让...

2012-03-07 16:36:00 115

转载 upnp导致cisco WRH 54G无线路由器丢包

家里的无线路由器买了4、5年了,一直没啥问题,最近突然上网断断续续的,开始以为是宽带的问题,后来发现ping无线路由器以及登录路由器的web页面都有问题,无线和有线连接都不行。怀疑路由器坏了,reset和重启都不管用。后来看网上说这个是WRH 54G的通病,将upnp功能关掉就好了,试了一下,还真是!UPnP主要是为BT类的软件打开端口,加快BT下载和上传速度,不知道为什么会导致...

2012-01-07 18:14:00 198

转载 Linux 用户和用户组管理

关于AFS的用户和用户组管理,参考:http://research.cs.wisc.edu/twiki/bin/view/CSDocs/AfsHowTo 1、与用户(user)和用户组(group)相关的配置文件 1)与用户(user)相关的配置文件 /etc/passwd 注:用户(user)的配置文件; /etc/shadow 注:用户(user)影子口令文件; 2)与...

2011-12-07 02:08:00 67

转载 图解autoscan、aclocal、autoheader、automake、autoconf、configure、make

原文地址:http://hi.baidu.com/yzkuang/blog/item/557e4f24423d8136c9955908.html1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题,比如检查编译器,库,头文件等,生成文件configure.scan,它是configure.ac的一个雏形。 your source file...

2011-12-06 21:46:00 69

转载 error while loading shared libraries

今天配置hadoop Eclipse开发环境,需要安装google的ProtocolBuffers,一开始按照./configure;make all install的一般方法安装了,结果由于/usr/local/lib不在LD_LIB_PATH中,因此mvn出错。后来将/usr/local/bin和/usr/local/lib下的protobuf相关库删掉,重新./configur...

2011-12-06 21:05:00 118

转载 计算所的云计算开源软件-凌云 lingcloud

计算所今天宣布其凌云(LingCloud)云计算系统开源版本发布,还没有细看其结构及接口形式,但还是为国内又多了个开源软件而高兴。希望能够有很好的开发组织模式,活跃的用户及稳定的开发团队,来保证这个开源能够很好的发展下去。网站地址:http://lingcloud.org/lingcloud/svn地址:http://svn.lingcloud.org:18080/s...

2011-06-01 17:15:00 160

转载 女人,为什么喜欢穿高跟鞋?

今天看加勒比海盗4的宣传图片,有几张女主角佩内洛普高跟鞋的特写:穿着这样的鞋,几乎是靠脚尖站着,于是就想,这高跟鞋穿着这么不舒服,为什么还有那么多的女人穿呢?来自新华网的一篇文章从经济学的角度给出了一些解释:穿高跟鞋的女人更能吸引别人的注意...高跟鞋除了让女人看起来更高以外,它还迫使背部呈弧形,促使女性挺胸翘臀,从而突出了女人的外表特征这篇文章还有很多有趣的东西,比如 ”为什么没有...

2011-05-15 17:37:00 116

转载 hadoop: could only be replicated to 0 nodes, instead of 1

今天安装了hadoop cluster (参考 http://hadoop.apache.org/common/docs/current/cluster_setup.html),当执行 #bin/hadoop dfs -put input input 时,报错 ...,could only be replicated to 0 nodes, instead of 1,网上查了查,最后确...

2011-05-13 23:38:00 75

转载 Linux 递归替换目录下所有文件里的字符串

find . -name "*.htm" | xargs sed -i -e "s%somebody%donal%g"转载于:https://www.cnblogs.com/Donal/archive/2011/04/24/2026422.html

2011-04-24 20:07:00 321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除