关闭

阿里云CentOS pdf2htmlEX的安装

由于项目cnexpat中需要用到pdf2htmlex,先在虚拟机上捣鼓了好久,最后才在服务器上安装成功。因为是linux 初学,所有整个安装过程很苦逼了 1.          升级gcc,要求GCC >= 4.6.3   Wget http://people.centos.org/tru/devtools-2/devtools-2.repo-O /etc/yum.repos.d/devtools...
阅读(1279) 评论(0)

linux上php读取和创建word文档

总结下本人在日常工作中使用php操作word的一些实战。 方法一:利用php com模块。也即利用word提供的本地api,所有只适用于windows系统上。[php] view plain copy$word = new com('word.application') or die('无法打开word');  $word->Visiable = false;  $doc_file = '/pat...
阅读(1728) 评论(0)

PHP读取doc,docx,xls,pdf,txt内容

我的一个客户有这样的需求:上传文件,可以是doc,docx,xls,pdf,txt格式,现需要用php读取这些文件的内容,然后计算文件里面字数.1.PHP读取DOC格式的文件      PHP没有自带读取word文件的类,或者是库,这里我们使用antiword(http://www.winfield.demon.nl/)这个包来读取doc文件.     首先介绍一下如何在windows下使用:  ...
阅读(3982) 评论(0)

pdf2htmlEX实现pdf转html

首先要感谢pdf2htmlEX的作者Lu Wang,该软件是一个pdf转html的开源软件,效果非常理想。下面两张图片是html和pdf视图下的截图:windows下载地址pdf2htmlEX-v1.0-win32-static本人开发的一个功能:文档在线阅读,要求能够支持移动终端浏览器在线阅读。考虑过将文档先转pdf,然后在将pdf转swf,利用flexpaper在前端浏览器访问。但是由于saf...
阅读(2029) 评论(2)

[开源推荐]Facebook开源的JavaScript库:React 【轻量级app开发】

React是Facebook开源的JavaScript库,用于构建UI。你可以在React里传递多种类型的参数,如声明代码,帮助你渲染出UI、也可以是静态的HTML DOM元素、也可以传递动态变量、甚至是可交互的应用组件。(文字来自JS开发者微博)特点:声明式设计:React采用声明范式,你可以轻松描述你的应用高效:Reeact通过对DOM的模拟表现,最大限度地较少与DOM的交互。灵活:React...
阅读(1049) 评论(0)

数据管理平台DMP细致研究——BlueKai

产品简介BlueKai提供的服务是各种互联网的流量数据, 它提供以下四项数据服务:1.数据管理平台(DMP):用来帮助用户组织并分析数据,功能包括:(1)收集整合线上线下的数据(用户的自有数据)(2)对数据进行划分(可以针对不同的营销活动,如展示、搜索、视频、社交广告等)(3)将数据用于投放(可投放到不同的广告网络和交换平台)(4)衡量投放效果(可视化),不断进行优化2.数据交换中心:通过使用第三...
阅读(2344) 评论(0)

百度开源深度学习平台Paddle

百度开源深度学习平台Paddle 吃瓜群众表示只想知道好不好。百度今天开源了其深度学习平台Paddle,引发了挺多人工智能领域开发者的兴趣,包括一些之前一直在Tensorflow和Caffe上练手的开发者。不过鉴于深度学习的开源平台目前并不多,作为开发者也作为热心吃瓜群众的头等大事,就是想知道——这个平台怎么样?别人怎么看这个平台?以及这个平台跟Tensorflow以及Caffe有何区别?  ▎这...
阅读(4431) 评论(0)

flume介绍及扩展开发心得

一、flume简介Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种storage。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。上图的Flume的Architecture,在Flume中,最重要的抽象是data flow(数据流),data flow描述了数据从产...
阅读(6985) 评论(0)

Impala入门笔记

问题背景:初步了解Impala的应用重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:了解Impala的安装过程初步了解Impala的使用比较Impala与Hive的性能测试适合阅读对象:想了解Impala安装的读者想了解Impala与Hive性能比较的读者不涉及的内容:如何安装Hadoop(假设你已经安装好了Hadoop)如何安装Hive(假设你已经安装好了Hive...
阅读(6113) 评论(0)

Meteor:让实时Web App成为主流

Meteor在2012年4月首次发布,该消息一经发布,便迅速占据了Haceker News头条宝座,并且成为Hacker News上最热门的文章之一。本文是作者Sacha Greif使用Meteor开发的心得体会,他认为Meteor会让实时Web App在未来成为主流。Meteor是一个新鲜出炉的现代网站开发平台,目前发布的是开发预览版0.5.8,代码以GPL协议开源。大家可以去 GitHub上关...
阅读(1321) 评论(0)

文本深度表示模型Word2Vec

简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可...
阅读(3443) 评论(0)

【机器学习】随机森林RF

随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成的随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。        随机森林以随机的方式建立一个森林,森林里有很多决策树,且每棵树之间无关联,当有一个新样本进入后,让森林中...
阅读(3997) 评论(0)

【机器学习】迭代决策树GBRT(渐进梯度回归树)

一、决策树模型组合        单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。        在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式:...
阅读(3271) 评论(0)

MLlib算法简介

之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。以上是目前spark1.3支持的算法包,相比较之...
阅读(1789) 评论(0)

Tensorflow 官方版教程中文版

2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。一个月后,30章文档全部翻译校对完成,上线并提供电子书下载,该文档的上线为国内外使用中文学习TensorFlow的工程及研究人员提供了更快的访问速度和更好的阅读体验,助力中国AI技术与世界同步。在线阅读地址为:http://wiki.jikexueyuan.co...
阅读(2670) 评论(0)

BP人工神经网络的C++实现

BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法(梯度法),通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网...
阅读(1924) 评论(0)

Erlang不能错过的盛宴 -----一位Erlang程序员的自白

Erlang不能错过的盛宴(快步进入Erlang的世界)作者:成立涛 (litaocheng@gmail.com)作为程序员,我们曾经闻听很多“业界动态”,“技术革新”,曾经接触很多“高手箴言”,“权威推荐”。这些正确与否,都已成过去!现在,让我们迎接Erlang盛宴!一、经历2007年11月在koders.com搜索代码时,发现*.erl格式的源文件,感叹开发语言的花样百出,此时,我觉得erla...
阅读(2415) 评论(0)

Blade - 腾讯开源的构建系统 c/c++编译环境

typhoon-bladeBlade is an advanced building system developed with python, majorly for C/C++Blade 是一个现代构建系统,期望的目标是强大而好用,把程序员从构建的繁琐中解放出来。Blade主要定位于linux下的大型C++项目,密切配合研发流程,比如单元测试,持续集成,覆盖率统计等。但像unix下的文本过滤程...
阅读(8199) 评论(1)

用curl获取https请求

今天一个同事反映,使用curl发起https请求的时候报错:“SSL certificate problem, verify that the CA cert is OK. Details: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify failed”很明显,验证证书的时候出现了问题。使用cur...
阅读(3323) 评论(2)

(总结)CentOS Linux搭建SVN Server配置详解

PS:今天给开发的同事搭建一个公网的SVN Server,google一下,发现下面这篇最详细,就记录下来,重新排版一下。顺便根据自己的使用经验,补充了几个细节和总结。本文配置是基于CentOS 5.x的,但一样适用于其他Linux发行版!SVN简介和工作原理subversion(简称svn)是近几年崛起的版本管理软件,是cvs的接班人,目前绝大多数开源软件都使用svn作为代码版本管理软件。Sub...
阅读(1861) 评论(1)
857条 共43页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:2767216次
    • 积分:31000
    • 等级:
    • 排名:第175名
    • 原创:521篇
    • 转载:336篇
    • 译文:0篇
    • 评论:443条
    最新评论