数据清洗工具OpenRefine

数据清洗工具OpenRefine作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。一、介绍OpenRefine我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错...
阅读(22901) 评论(0)

Apache Solr 4.0今日发布

经过了三年的开发努力,Apache Solr Server 4.0终于发布了。Apache Solr是流行的,速度极快,开源的NoSQL的搜索平台,来自于Apache Lucene项目。它的主要功能包括强大的全文搜索,命中高亮显示、面搜索、动态集群、数据库集成、丰富的文档和地理信息搜索。Solr是高度可扩展的、提供了分布式搜索和索引的容错功能,强大的搜索和导航功能等。Apache Solr 4.0...
阅读(2378) 评论(0)

Apache Lucene 4.0今日发布

经过了三年的开发努力,Apache Lucene 4.0终于发布了。Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎任何需要全文搜索,特别是跨平台的应用程序。Apache Lucene 4.0版的亮点:1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。2. 矢量空间...
阅读(2178) 评论(1)

用R读取PDF并进行数据挖掘

用R读取PDF并进行数据挖掘,例子如下:# here is a pdf for mining url <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf" dest <- tempfile(fileext = ".pdf") download.file(url, dest, mode = "wb") # set path to pdf...
阅读(5861) 评论(0)

MySQL存储过程使用表名做参数

MySQL存储过程使用表名做参数动态创建表的例子。...
阅读(8575) 评论(2)

章一 导论(1)

章一 导论由于人们认知能力的有限性,海量信息在给人们带来方便的同时也带来了一大堆的问题。第一是信息超载,难以消化;第二是有效信息难以提取,真假信息难以辨识;第三是信息安全难以保证,有意或无意的行为经常会威胁到信息的安全;第四是信息形式不一致,既有结构化的信息,也有非结构化的信息,难以统一处理。普通的数据库系统虽然可以高效地实现数据的录入、查询、统计和维护等功能,并可以对数据做一些简单分析处理,...
阅读(1776) 评论(0)
    个人资料
    • 访问:5437405次
    • 积分:49904
    • 等级:
    • 排名:第67名
    • 原创:781篇
    • 转载:23篇
    • 译文:24篇
    • 评论:1156条
    一名路过的黑客

    大家好,我是黑客,专门盗账号的。现在这个人的帐号被我盗了,但看这个人平时的博客空间,一直过着艰苦努力、持之以恒的技术研究生活,勤奋刻苦,积极分享,无私奉献,我被深深的感动了,这是一个纯粹的人,人品这样的高尚,希望大家看到我这条消息后,可以私聊他,多鼓励他,不缺钱的就多给他一些经济上的资助,让他再接再厉!就这样吧,我下线了,眼框湿湿的难受。

    文章存档