- 博客(47)
- 资源 (8)
- 收藏
- 关注
原创 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析
前言2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,大数据时代悄然到来,并迅速改变着各行各业。如今,十年风云际会,大数据早已成了行业绕不开的话题,这其中我们或多或少会接触到很多新兴的概念,例如数据湖、数据中台等,通过一些碎片化的学习,也是大概知...
2020-01-09 16:42:54 12251 1
原创 Rocchio算法在推荐系统中的应用
目录一、Rocchio 算法简介二、用户画像三、Rocchio算法进行二次推荐四、结束语一、Rocchio 算法简介 该算法(Rocchio,1971)是20 世纪70 年代左右在Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法。(1)Rocchio算法应用于文本分类 Rocchio算法应该算是人
2017-08-01 17:49:49 2301
转载 贪心算法
1、Dijkstra算法(单源最短路径) 单源最短路径问题,即在图中求出给定顶点到其它任一顶点的最短路径。在弄清楚如何求算单源最短路径问题之前,必须弄清楚最短路径的最优子结构性质。一.最短路径的最优子结构性质 该性质描述为:如果P(i,j)={Vi....Vk..Vs...Vj}是从顶点i到j的最短路径,k和s是这条路径上的一个中间顶点,那么P(k,s)必定是从k到s的最
2015-08-15 21:03:30 464
原创 排序算法比较---C++版和java版
5大排序算法:直接插入排序O(n^2),折半插入排序O(n^2), 冒泡排序O(n^2), 快速排序O(log2n), 归并排序O(n)C++#includeusing namespace std;template struct ElementType{ Type Key;//数据元素的关键字 //数据元素的其他数据项};template struct Sq
2015-05-15 19:11:03 604
转载 Hive安装及使用攻略
Hive安装及使用攻略让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单地放几个web应用,显然是奢侈的浪费。就算是用来实现单节点的hadoop,对计算资源浪费也是非常高的。
2014-12-05 14:13:11 418
转载 c++实现atoi()和itoa()函数(字符串和整数转化)
一:起因(1)字符串类型转化为整数型(Integer),还是字符串类型(String)转化为Double类型,这在java里面有非常好的内部函数,很easy的事情;(2)但是在c里面没有Integer Double等包装类,由char[]数组转化为整数型就变得不那么简单了,atoi() itoa()在widows下面有,但是网上说linux 下好像没有 itoa() 函数,用 s
2014-11-20 21:54:30 1131
转载 nutch-1.2-------nutch命令详解
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl [-dir d] [-threads n] [-d
2014-10-30 10:24:37 461
转载 2013最常用的NoSQL数据库
摘要:与关系数据库相比,每个NoSQL都有自己不同的适用场景,这里带大家盘点文档数据库、图数据库、键值数据存储、列存储数据库与内存数据网络等领域的常用的NoSQL。在几年内,NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择,就像结构数据和要求ACID事务的应用,但是NoSQL在以下用例中将更具优势:
2014-10-28 15:38:40 349
转载 关于typedef的用法总结(真理真是越辩越明)
不管实在C还是C++代码中,typedef这个词都不少见,当然出现频率较高的还是在C代码中。typedef与#define有些相似,但更多的是不同,特别是在一些复杂的用法上,就完全不同了,看了网上一些C/C++的学习者的博客,其中有一篇关于typedef的总结还是很不错,由于总结的很好,我就不加修改的引用过来了,以下是引用的内容(红色部分是我自己写的内容)。用途一:定义一种类型的别名,而不
2014-10-28 10:45:15 1896
原创 Cygwin的中文文件名显示和中文输入问题的解决办法
无论是显示中文文件名,还是输入中文,都必须设置Cygwin启动程序的选项中的“当前代码页”为简体中文。在简体中文的Windows系统中,Cygwin的“当前代码页”设置,缺省的就是简体中文。
2014-10-26 12:03:05 3474
转载 通过SQL Server 2008数据库复制实现数据库同步备份
SQL Server 2008数据库复制是通过发布/订阅的机制进行多台服务器之间的数据同步,我们把它用于数据库的同步备份。这里的同步备份指的是备份服务器与主服务器进行实时数据同步,正常情况下只使用主数据库服务器,备份服务器只在主服务器出现故障时投入使用。它是一种优于文件备份的数据库备份解决方案。
2014-08-08 11:35:10 430
转载 10种排序算法总结
排序算法有很多,所以在特定情景中使用哪一种算法很重要。为了选择合适的算法,可以按照建议的顺序考虑以下标准: (1)执行时间 (2)存储空间 (3)编程工作 对于数据量较小的情形,(1)(2)差别不大,主要考虑(3);而对于数据量大的,(1)为首要。 主要排序法有: 一、冒泡(Bubble)排序——相邻交换 二、选择排序——每次最小/大排在相应的位置 三
2014-07-30 11:17:00 428
转载 大数据的关键技术
在大数据时代,传统的数据处理方法还适用吗?大数据环境下的数据处理需求大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。传统数据处理方法的不足传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术
2014-03-28 11:53:52 580
转载 大数据技术的发展趋势
大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展?它们之中哪些技术将广为流行?又会诞生哪些新的技术?技术趋向多样化,企业应选择接受度高和未来会快速普及的技术目前,大数据相关的技术和工具非常多,给企业提供了更多的选择。在未来,还会继续出现新的技术和工具,如Hadoop分发、下一代数据仓库等,这也是大数据领域的创新热点。那么企
2014-03-28 11:47:25 701
转载 大数据与云计算
近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?从整体上看,大数据与云计算是相辅相成的大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT解决方案,提供 IT 基础架构,看重的是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算
2014-03-28 11:32:13 884
转载 libsvm在vc下的使用
LIBSVM软件包是台湾大学林智仁(Chih-Jen Lin)博士等用C++实现的SVM库,并且拥有matlab,perl等工具箱或者代码,移植和使用都比较方便.它可以解决分类问题(包括C-SVC、n-SVC)、回归问题(包括e-SVR、n-SVR)以及分布估计(one-class-SVM )等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参
2014-02-19 11:03:43 940 1
转载 驾驭大数据
大数据中的“大”和“数据”哪个更重要现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要? 请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。好了,既然
2014-01-06 12:09:37 824
原创 c++编写一个简单的数据库程序
第一步:构建一个头文件(**.h)#include#include#include#includeusing namespace std;class CStudentRec{public: char chFlag;//标志,A表示正常,N表示空 char strName[20];//姓名 char strID[10];//学号 float fScore[3];//3门成绩
2013-12-30 16:27:06 6437 1
转载 Mysql 优化详细介绍
MySQL 提供了很多参数进行服务器的设置, MySQL 在安装的时候提供几个默认的参数文件供选择,分别是: my-small.cnf 、 my-medium.cnf 、 my-large.cnf 、 my-huge.cnf 、 my-innodb-heavy-4G.cnf ,从文件名我们可以看出该配置文件适合的应用规模。通常情况下,我们可以选择使用接近自己的系统规模的配置文件,但是系统默认的参数
2013-12-29 14:49:50 506
转载 MySQL存储引擎比较
MySQL常用的存储引擎为MyISAM、InnoDB、MEMORY、MERGE,其中InnoDB提供事务安全表,其他存储引擎都是非事务安全表。 MyISAM是MySQL的默认存储引擎。MyISAM不支持事务、也不支持外键,但其访问速度快,对事务完整性没有要求。 InnoDB存储引擎提供了具有提交、回滚和崩溃恢复能力的事务安全。但是比起MyISAM存储引擎,InnoDB写的处理效率差
2013-12-29 14:41:24 374
转载 讲述MySQL基本语法
(导读:本章学习的内容主要是对数据表和保存数据的基本管理语法;数据库非常重要,有时候大部分j2ee工程师也叫做数据库开发工程师,项目中无非就是对数据CURD操作;本章的学习无非就是大量语法的记忆,所以,建议自己动手。)数据库:从本质上讲,数据库系统只不过是一套对大量信息进行管理的高效办法而已。(高效主要体现在:缩短信息记录的录入时间;缩短信息记录的检索时间;灵活的信息检索顺序;灵活的输
2013-12-29 14:38:41 866
转载 关于mysql中explain的那些事儿
有两种用法:1.EXPLAIN tbl_name2.EXPLAIN [EXTENDED] SELECT select_options为了更好的说明它,我们需要建两张表,下面的语句用于创建一张测试用的订单表:CREATE TABLE `t_order` ( `order_id` int(10) unsigned NOT NULL AUTO_INCREMENT COMME
2013-12-29 14:30:50 604
转载 MySQL索引背后的数据结构及算法原理
摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第
2013-12-29 13:06:38 434
转载 逻辑斯蒂回归(logistic regression)学习笔记
什么是逻辑斯蒂回归,参见维基百科的解释点击打开链接。后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解(越是基础的东西越难讲清楚)。在这里我对逻辑斯蒂回归记录一点自己的认识。两个问题:Q1,为什么选用logistic function?Q2,logistic regression到底在做什么?Q1,为什么选用logistic function?
2013-12-28 14:41:17 1667
转载 2013最常用的NoSQL数据库
摘要:与关系数据库相比,每个NoSQL都有自己不同的适用场景,这里带大家盘点文档数据库、图数据库、键值数据存储、列存储数据库与内存数据网络等领域的常用的NoSQL。 在几年内,NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择,就像结构数据和要求ACID事务的应用,但是NoSQL在以下用例中将更具优势
2013-12-28 14:35:26 390
转载 文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释
文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。(注:转载请注明作者
2013-12-28 14:24:11 726
转载 文本分类资源和程序开源共享
文本语料库(包括中英文新闻)的详细说明以及下载地址为: http://www.datatang.com/data/13484文本分类程序最新版的详细说明以及下载地址为: http://www.datatang.com/data/13483文本分类的中间表达形式VSM模型的详细说明以及下载地址为:(1)英文语料的VSM模型: http://www.datatang.com/data/13
2013-12-28 14:19:42 566
转载 Kmeans聚类之建立词袋子模型
作者:finallyliuyu(转载请注明出处)最近打算将自己的工作平台由C#,python等迁移到C++。这是我的第一个C++工作程序吧。IDE:VS2008language: C++library:boost(安装boost库,先要安装python安装方法见《boost库安装方法》)tools:wekaC++程序完成的功能:从数据库中读出文章-》分词(调用ICTCL
2013-12-28 14:12:55 1044 1
转载 电子政务云
目录1概述2与公共服务云的区别3产生的背景4应用价值5应用架构图6电子政务云带来的影响1概述电子政务云(E-government cloud)属于政府云,结合了云计算技术的特点,对政府管理和服务职能进行精简、优化、整合,并通过信息化手段在政务上实现各种业务流程办理和职能服务,为政府各级部门提供可靠的基础IT服务平台。[1]
2013-12-28 13:57:00 937
转载 隐马尔可夫模型中的Viterbi算法的C++实现
[cpp] view plaincopyprint?#include #include #include #include using namespace std; typedef vector VecStr; typedef mapdouble > MapStrDou; typedef mapdouble > > MapStrMap; typedef ve
2013-12-27 11:02:28 1444
转载 5 Reasons to Stick with MySQL
MySQL’s founder is encouraging people to steer away from his creation. Here’s why he’s wrong.Schism between the worlds of open source and proprietary software is never going to go away as long as op
2013-12-27 10:58:56 571
转载 放弃MySQL的五大理由
摘要:在信息技术快速发展的时代,淘汰与被淘汰是常有的事。以往最受欢迎的开源数据库MySQL由于性能、管理等方面的问题,遭到强大对手的挤压,已不再是开发者手中的宠儿了,本文详述了放弃使用MySQL的五大理由。MySQL目前仍然是受欢迎的开源数据库,但是近些年来它已经慢慢失宠了——这很正常。下面来看看放弃使用MySQL数据库的五个较实际的理由。追溯到2008年,当Sun Microsyst
2013-12-27 10:58:10 677
转载 MySQL在Web应用领域面临NoSQL的挑战
摘要:仅仅几年前,MySQL还是开源数据库领域公认的王者,但是随着NoSQL以82%的年复合增长率狂飙,MySQL在Web应用市场正面临被NoSQL淘汰的危险。仅仅几年前,MySQL还是开源数据库领域公认的王者,但是随着NoSQL以82%的年复合增长率狂飙,MySQL在Web应用市场正面临被NoSQL淘汰的危险。向NoSQL的迁移不但成为IT业发展趋势的一个注脚,还让人们领略了开源驱动
2013-12-27 10:55:17 697
转载 MySQL到NoSQL:数据的重思和查询方式的转换
MySQL到NoSQL:数据的重思和查询方式的转换CouchbaseMySQLNoSQL数据库云计算摘要:在众多NoSQL数据库的轰炸下,身为数据工作者的你肯定在做是否迁移的考虑。而迁移后所面对的操作方式转换也是重点考虑的之一,Couchbase副总裁MC Brown认为过渡的首要工作就是对数据的重思,并讨论了查询方式的转换。从关系型数据库转移至NoSQL数据库——比如从MySQL转移
2013-12-27 10:54:02 634
转载 零基础使用LDA模型
一.输入解读:-est -alpha 0.5 -beta 0.1 -ntopics 70 -niters 2000 -savestep 1000 -twords 15 -dfile 2.nohtml.nospace.seg.cn.nospace这是我用LDA训练模型时使用的参数,以下为各参数的解读。-est表示进行模型估计;另外还有两个可选的为-estc继续估计;还有一个-
2013-12-26 20:55:12 1144 1
转载 U盘安装CentOS 6.4 + Windows 7双系统 (Windows 7下安装 CentOS 6.4)
最近在看《鸟哥私房菜:基础学习篇》,觉得很不错,想要用U盘装个windows 7 和 CentOS 6.4的 双系统,在网上找了很多教程,觉得乱七八糟的,弄得很复杂,而且很多都不是很完整,对于新手实在是伤不起。最终自己用U盘装了两次,有一次还把引导程序装到U盘MBR去了。o(╯□╰)o 决定写篇博客,防记忆衰老,也为所有想学linux的小白贡献一点资料吧。O(∩_∩)O~
2013-12-26 20:53:08 398
NLPIR大数据搜索与挖掘共享开发平台
2014-10-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人