自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东南风的专栏

灵感来自于垂死梦中惊坐起

  • 博客(47)
  • 资源 (8)
  • 收藏
  • 关注

原创 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

前言2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,大数据时代悄然到来,并迅速改变着各行各业。如今,十年风云际会,大数据早已成了行业绕不开的话题,这其中我们或多或少会接触到很多新兴的概念,例如数据湖、数据中台等,通过一些碎片化的学习,也是大概知...

2020-01-09 16:42:54 12251 1

原创 Rocchio算法在推荐系统中的应用

目录一、Rocchio 算法简介二、用户画像三、Rocchio算法进行二次推荐四、结束语一、Rocchio 算法简介       该算法(Rocchio,1971)是20 世纪70 年代左右在Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法。(1)Rocchio算法应用于文本分类       Rocchio算法应该算是人

2017-08-01 17:49:49 2301

转载 贪心算法

1、Dijkstra算法(单源最短路径)      单源最短路径问题,即在图中求出给定顶点到其它任一顶点的最短路径。在弄清楚如何求算单源最短路径问题之前,必须弄清楚最短路径的最优子结构性质。一.最短路径的最优子结构性质   该性质描述为:如果P(i,j)={Vi....Vk..Vs...Vj}是从顶点i到j的最短路径,k和s是这条路径上的一个中间顶点,那么P(k,s)必定是从k到s的最

2015-08-15 21:03:30 464

原创 排序算法比较---C++版和java版

5大排序算法:直接插入排序O(n^2),折半插入排序O(n^2),  冒泡排序O(n^2),   快速排序O(log2n),  归并排序O(n)C++#includeusing namespace std;template struct ElementType{ Type Key;//数据元素的关键字 //数据元素的其他数据项};template struct Sq

2015-05-15 19:11:03 604

转载 Hive安装及使用攻略

Hive安装及使用攻略让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单地放几个web应用,显然是奢侈的浪费。就算是用来实现单节点的hadoop,对计算资源浪费也是非常高的。

2014-12-05 14:13:11 418

转载 c++实现atoi()和itoa()函数(字符串和整数转化)

一:起因(1)字符串类型转化为整数型(Integer),还是字符串类型(String)转化为Double类型,这在java里面有非常好的内部函数,很easy的事情;(2)但是在c里面没有Integer Double等包装类,由char[]数组转化为整数型就变得不那么简单了,atoi()  itoa()在widows下面有,但是网上说linux 下好像没有 itoa() 函数,用 s

2014-11-20 21:54:30 1131

原创 hadoop生态系统

* HDFS——Hadoop生态系统的基础组件

2014-11-06 11:01:57 604

转载 nutch-1.2-------nutch命令详解

Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl [-dir d] [-threads n] [-d

2014-10-30 10:24:37 461

转载 2013最常用的NoSQL数据库

摘要:与关系数据库相比,每个NoSQL都有自己不同的适用场景,这里带大家盘点文档数据库、图数据库、键值数据存储、列存储数据库与内存数据网络等领域的常用的NoSQL。在几年内,NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择,就像结构数据和要求ACID事务的应用,但是NoSQL在以下用例中将更具优势:    

2014-10-28 15:38:40 349

原创 学习笔记之信号及信号处理------linux c

信号作为一种进程间通信的机制,并没有实现进程间数据的传输和交换

2014-10-28 13:37:26 472

转载 关于typedef的用法总结(真理真是越辩越明)

不管实在C还是C++代码中,typedef这个词都不少见,当然出现频率较高的还是在C代码中。typedef与#define有些相似,但更多的是不同,特别是在一些复杂的用法上,就完全不同了,看了网上一些C/C++的学习者的博客,其中有一篇关于typedef的总结还是很不错,由于总结的很好,我就不加修改的引用过来了,以下是引用的内容(红色部分是我自己写的内容)。用途一:定义一种类型的别名,而不

2014-10-28 10:45:15 1896

原创 Nutch-1.2添加中文分词ICTCLAS以及常见问题解答

本文以windows系统为例工具准备

2014-10-26 20:30:48 675

原创 Cygwin的中文文件名显示和中文输入问题的解决办法

无论是显示中文文件名,还是输入中文,都必须设置Cygwin启动程序的选项中的“当前代码页”为简体中文。在简体中文的Windows系统中,Cygwin的“当前代码页”设置,缺省的就是简体中文。

2014-10-26 12:03:05 3474

原创 云计算网络架构

【内容提要】     本章主要介绍数据中心网络总体

2014-10-24 17:02:08 2840

转载 通过SQL Server 2008数据库复制实现数据库同步备份

SQL Server 2008数据库复制是通过发布/订阅的机制进行多台服务器之间的数据同步,我们把它用于数据库的同步备份。这里的同步备份指的是备份服务器与主服务器进行实时数据同步,正常情况下只使用主数据库服务器,备份服务器只在主服务器出现故障时投入使用。它是一种优于文件备份的数据库备份解决方案。

2014-08-08 11:35:10 430

转载 10种排序算法总结

排序算法有很多,所以在特定情景中使用哪一种算法很重要。为了选择合适的算法,可以按照建议的顺序考虑以下标准: (1)执行时间 (2)存储空间 (3)编程工作    对于数据量较小的情形,(1)(2)差别不大,主要考虑(3);而对于数据量大的,(1)为首要。   主要排序法有: 一、冒泡(Bubble)排序——相邻交换 二、选择排序——每次最小/大排在相应的位置 三

2014-07-30 11:17:00 428

转载 大数据的关键技术

在大数据时代,传统的数据处理方法还适用吗?大数据环境下的数据处理需求大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。传统数据处理方法的不足传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术

2014-03-28 11:53:52 580

转载 大数据技术的发展趋势

大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展?它们之中哪些技术将广为流行?又会诞生哪些新的技术?技术趋向多样化,企业应选择接受度高和未来会快速普及的技术目前,大数据相关的技术和工具非常多,给企业提供了更多的选择。在未来,还会继续出现新的技术和工具,如Hadoop分发、下一代数据仓库等,这也是大数据领域的创新热点。那么企

2014-03-28 11:47:25 701

转载 大数据与云计算

近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?从整体上看,大数据与云计算是相辅相成的大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT解决方案,提供 IT 基础架构,看重的是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算

2014-03-28 11:32:13 884

转载 libsvm在vc下的使用

LIBSVM软件包是台湾大学林智仁(Chih-Jen Lin)博士等用C++实现的SVM库,并且拥有matlab,perl等工具箱或者代码,移植和使用都比较方便.它可以解决分类问题(包括C-SVC、n-SVC)、回归问题(包括e-SVR、n-SVR)以及分布估计(one-class-SVM )等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参

2014-02-19 11:03:43 940 1

转载 驾驭大数据

大数据中的“大”和“数据”哪个更重要现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要? 请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。好了,既然

2014-01-06 12:09:37 824

原创 c++编写一个简单的数据库程序

第一步:构建一个头文件(**.h)#include#include#include#includeusing namespace std;class CStudentRec{public: char chFlag;//标志,A表示正常,N表示空 char strName[20];//姓名 char strID[10];//学号 float fScore[3];//3门成绩

2013-12-30 16:27:06 6437 1

转载 Mysql 优化详细介绍

MySQL 提供了很多参数进行服务器的设置, MySQL 在安装的时候提供几个默认的参数文件供选择,分别是: my-small.cnf 、 my-medium.cnf 、 my-large.cnf 、 my-huge.cnf 、 my-innodb-heavy-4G.cnf ,从文件名我们可以看出该配置文件适合的应用规模。通常情况下,我们可以选择使用接近自己的系统规模的配置文件,但是系统默认的参数

2013-12-29 14:49:50 506

转载 MySQL存储引擎比较

MySQL常用的存储引擎为MyISAM、InnoDB、MEMORY、MERGE,其中InnoDB提供事务安全表,其他存储引擎都是非事务安全表。 MyISAM是MySQL的默认存储引擎。MyISAM不支持事务、也不支持外键,但其访问速度快,对事务完整性没有要求。 InnoDB存储引擎提供了具有提交、回滚和崩溃恢复能力的事务安全。但是比起MyISAM存储引擎,InnoDB写的处理效率差

2013-12-29 14:41:24 374

转载 讲述MySQL基本语法

(导读:本章学习的内容主要是对数据表和保存数据的基本管理语法;数据库非常重要,有时候大部分j2ee工程师也叫做数据库开发工程师,项目中无非就是对数据CURD操作;本章的学习无非就是大量语法的记忆,所以,建议自己动手。)数据库:从本质上讲,数据库系统只不过是一套对大量信息进行管理的高效办法而已。(高效主要体现在:缩短信息记录的录入时间;缩短信息记录的检索时间;灵活的信息检索顺序;灵活的输

2013-12-29 14:38:41 866

转载 关于mysql中explain的那些事儿

有两种用法:1.EXPLAIN tbl_name2.EXPLAIN [EXTENDED] SELECT select_options为了更好的说明它,我们需要建两张表,下面的语句用于创建一张测试用的订单表:CREATE TABLE `t_order` (  `order_id` int(10) unsigned NOT NULL AUTO_INCREMENT COMME

2013-12-29 14:30:50 604

转载 MySQL索引背后的数据结构及算法原理

摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第

2013-12-29 13:06:38 434

转载 逻辑斯蒂回归(logistic regression)学习笔记

什么是逻辑斯蒂回归,参见维基百科的解释点击打开链接。后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解(越是基础的东西越难讲清楚)。在这里我对逻辑斯蒂回归记录一点自己的认识。两个问题:Q1,为什么选用logistic function?Q2,logistic regression到底在做什么?Q1,为什么选用logistic function?

2013-12-28 14:41:17 1667

转载 2013最常用的NoSQL数据库

摘要:与关系数据库相比,每个NoSQL都有自己不同的适用场景,这里带大家盘点文档数据库、图数据库、键值数据存储、列存储数据库与内存数据网络等领域的常用的NoSQL。   在几年内,NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择,就像结构数据和要求ACID事务的应用,但是NoSQL在以下用例中将更具优势

2013-12-28 14:35:26 390

转载 文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释

文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。(注:转载请注明作者

2013-12-28 14:24:11 726

转载 文本分类资源和程序开源共享

文本语料库(包括中英文新闻)的详细说明以及下载地址为: http://www.datatang.com/data/13484文本分类程序最新版的详细说明以及下载地址为: http://www.datatang.com/data/13483文本分类的中间表达形式VSM模型的详细说明以及下载地址为:(1)英文语料的VSM模型: http://www.datatang.com/data/13

2013-12-28 14:19:42 566

转载 Kmeans聚类之建立词袋子模型

作者:finallyliuyu(转载请注明出处)最近打算将自己的工作平台由C#,python等迁移到C++。这是我的第一个C++工作程序吧。IDE:VS2008language: C++library:boost(安装boost库,先要安装python安装方法见《boost库安装方法》)tools:wekaC++程序完成的功能:从数据库中读出文章-》分词(调用ICTCL

2013-12-28 14:12:55 1044 1

转载 电子政务云

目录1概述2与公共服务云的区别3产生的背景4应用价值5应用架构图6电子政务云带来的影响1概述电子政务云(E-government cloud)属于政府云,结合了云计算技术的特点,对政府管理和服务职能进行精简、优化、整合,并通过信息化手段在政务上实现各种业务流程办理和职能服务,为政府各级部门提供可靠的基础IT服务平台。[1]

2013-12-28 13:57:00 937

转载 隐马尔可夫模型中的Viterbi算法的C++实现

[cpp] view plaincopyprint?#include   #include   #include   #include   using namespace std;  typedef vector VecStr;  typedef mapdouble > MapStrDou;  typedef mapdouble > > MapStrMap;  typedef ve

2013-12-27 11:02:28 1444

转载 5 Reasons to Stick with MySQL

MySQL’s founder is encouraging people to steer away from his creation. Here’s why he’s wrong.Schism between the worlds of open source and proprietary software is never going to go away as long as op

2013-12-27 10:58:56 571

转载 放弃MySQL的五大理由

摘要:在信息技术快速发展的时代,淘汰与被淘汰是常有的事。以往最受欢迎的开源数据库MySQL由于性能、管理等方面的问题,遭到强大对手的挤压,已不再是开发者手中的宠儿了,本文详述了放弃使用MySQL的五大理由。MySQL目前仍然是受欢迎的开源数据库,但是近些年来它已经慢慢失宠了——这很正常。下面来看看放弃使用MySQL数据库的五个较实际的理由。追溯到2008年,当Sun Microsyst

2013-12-27 10:58:10 677

转载 MySQL在Web应用领域面临NoSQL的挑战

摘要:仅仅几年前,MySQL还是开源数据库领域公认的王者,但是随着NoSQL以82%的年复合增长率狂飙,MySQL在Web应用市场正面临被NoSQL淘汰的危险。仅仅几年前,MySQL还是开源数据库领域公认的王者,但是随着NoSQL以82%的年复合增长率狂飙,MySQL在Web应用市场正面临被NoSQL淘汰的危险。向NoSQL的迁移不但成为IT业发展趋势的一个注脚,还让人们领略了开源驱动

2013-12-27 10:55:17 697

转载 MySQL到NoSQL:数据的重思和查询方式的转换

MySQL到NoSQL:数据的重思和查询方式的转换CouchbaseMySQLNoSQL数据库云计算摘要:在众多NoSQL数据库的轰炸下,身为数据工作者的你肯定在做是否迁移的考虑。而迁移后所面对的操作方式转换也是重点考虑的之一,Couchbase副总裁MC Brown认为过渡的首要工作就是对数据的重思,并讨论了查询方式的转换。从关系型数据库转移至NoSQL数据库——比如从MySQL转移

2013-12-27 10:54:02 634

转载 零基础使用LDA模型

一.输入解读:-est -alpha 0.5 -beta 0.1 -ntopics 70 -niters 2000 -savestep 1000 -twords 15 -dfile 2.nohtml.nospace.seg.cn.nospace这是我用LDA训练模型时使用的参数,以下为各参数的解读。-est表示进行模型估计;另外还有两个可选的为-estc继续估计;还有一个-

2013-12-26 20:55:12 1144 1

转载 U盘安装CentOS 6.4 + Windows 7双系统 (Windows 7下安装 CentOS 6.4)

最近在看《鸟哥私房菜:基础学习篇》,觉得很不错,想要用U盘装个windows 7 和 CentOS 6.4的 双系统,在网上找了很多教程,觉得乱七八糟的,弄得很复杂,而且很多都不是很完整,对于新手实在是伤不起。最终自己用U盘装了两次,有一次还把引导程序装到U盘MBR去了。o(╯□╰)o 决定写篇博客,防记忆衰老,也为所有想学linux的小白贡献一点资料吧。O(∩_∩)O~       

2013-12-26 20:53:08 398

jGibbLDA使用方法

LDA用于大规模文本的主题聚类

2014-11-30

NLPIR-JNI-发布包

ICTCLAS功能齐全,门类齐全,包括jar包,dll动态文件,Linux的.so、windows的.dll全都有,不要感激我,我只是知识的传播者。

2014-10-26

JavaDecompiler.rar

JavaDecompiler:java中.class的反编译查看工具,可以在其中产看java源代码

2014-10-24

NLPIR大数据搜索与挖掘共享开发平台

一、简介 NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。 NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 二、功能 NLPIR文本搜索与挖掘开发平台的十二大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 4. 统计分析与术语翻译 针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 5. 文本聚类及热点分析 能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。 6. 分类过滤 针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。 7. 正负面分析 针对事先指定的分析对象和示例样本,系统自动从海量文档中筛选出正负面的得分和句子样例。 8. 自动摘要 能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。 9. 关键词提取 能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。 10. 文档去重 能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。 11. HTML正文提取 自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。 12. 编码自动识别与转换 自动识别内容的编码,并把编码统一转换为GBK编码。 三、文件说明 1. LJParser.exe 可执行文件,本版本为共享版。 2. 演示语料 演示用语料,用户可替换,必须为文本文件,如果为GBK以外的编码,必须先进行编码识别与转换后方可进行其他操作。 3. 各种dll为各组件的调用接口,本演示程序全部基于已有的调用接口实现; 4. 文档说明,参见当前目录下的用户手册。

2014-10-24

语音情感识别

基于Matlab的语音情感识别工具

2013-12-30

1MySQL最新的发展及未来路线图.pdf

mysql最新版本发布及其新增功能简介,5.7版本性能大大提升

2013-12-26

C++实现KNN文本分类算法.docx

本文用C++实现KNN分类算法,代码齐全,直接使用,很适合初学者学习之用

2013-10-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除