自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(152)
  • 资源 (14)
  • 收藏
  • 关注

原创 存储技术(六)-产业和特性

一、存储的业界情况1.1 Gartner象限Gartner针对存储的两个主要象限。Leaders 领导者: 两方面都牛逼的产品就是领导者,用我的产品你就放100个心。Challengers 挑战者:技术够用,销售牛逼,用我的产品你也放心,但是不一定能带飞。Visionaries 远见者:技术牛逼,市场还不够,用我的产品一时爽,但是不保证公司倒闭或被收购。Niche Players 利基者,投机者: 技术和市场都不具备竞争力,可能是专注于某些细分小市场的小公司,或者是大公司还在起步的产

2021-03-22 19:12:53 246

原创 存储技术(五)-块文件对象

一 总体背景1、块存储使用特点:将裸磁盘空间整个映射给主机使用的,就是说例如磁盘阵列里面有5块硬盘(为方便说明,假设每个硬盘1G),然后可以通过划逻辑盘、做Raid、或者LVM(逻辑卷)等种种方式逻辑划分出N个逻辑的硬盘。优点:有Raid可以做保护;写入数据时,多块硬盘组合出的逻辑盘可并行写入缺点:可能涉及额外光纤交换机;主机之间数据无法共享;不同操作系统主机间数据共享不便2、文件存储使用特点:通过文件接口访问,典型文件包括FTP、NFS甚至CephFS的接口。优点:可以进行文件

2021-03-22 19:07:48 308

原创 存储技术(四)-关键性能和指标

一 分布式存储的性能指标1.1 主要性能指标Gartner发布的《Critical Capabilities for Distributed File Systems》报告中重点关注了分布式文件存储系统的8个核心关键:容量(~可扩展性)、空间效率、平台适配性、可管理性、性能、自愈能力(可用性和数据保护)、多租户及安全性、价格。针对于性能指标,需要在设定一定的预置条件,重点包括如下:1、存储类别。不同存储类别的每秒读写次数、价格、读写速度都不一样。2、文件大小和文件数量。这可以作为测试时的

2021-03-22 19:04:47 2361

原创 一个简单的python数据分析工具实践

一、main主函数1、调用mainframe二、frame1、mainframe:主窗体2、导入数据,调用函数upload13、查看数据模板,调用函数download14、简单统计分析,调用函数dataanaly5、t检验分析,调用函数dataanaly26、卡方检验,调用函数dataanaly37、相关性分析,调用函数dataanaly4其中函数mainframe、upload1、download1放置在文件frame.py中函数dataanaly、data

2021-03-22 18:30:48 307

原创 存储技术(三)-分布式存储

存储技术(三)-分布式存储原创大胖随笔5566大胖随笔55667月19日(本人微信号文章)一、分布式存储架构1.1 集中式元数据架构(2000s)1.2 去中心化架构(2010s)1.3 集中式vs分布式1.4 新的架构?二、典型架构-HDFS2.1 系统设计目标和原则2.2 基本架构2.3 数据副本2.4 健壮性2.5 演进与考虑三、典型架构-Ceph3.1 目标和理念3.3 动态分布式的元数据管理3.3.1 基本概念3.3....

2020-12-28 14:27:40 429 2

原创 存储技术(二)-存储方式

存储技术(二)-存储方式原创大胖随笔5566大胖随笔55667月18日(本文微信号文章)一、存储使用方式1.1 NAS1.2 SAN1.3 区别和使用二、SAN存储架构一、存储使用方式存储在使用中主要有两种方式:DAS(Directly Attach Storage)和网络存储。其中网络存储分为存储区域网络(Storage Area Network)和网络附加存储(Network Attached Storage)。DAS又称直连存储,存储管理通过各自连接的 服务器...

2020-12-28 14:26:08 400

原创 存储技术(一)-基本概念和技术发展

存储技术(一)-基本概念和技术发展原创大胖随笔5566大胖随笔55667月12日(本人微信号文章)一、发展的几个重要阶段IT资源的三大基石:计算、存储和网络。存储主要负责的是数据存取。存储设备的主要变迁阶段如下:1、第一阶段:服务器硬盘。计算机发展初期,整体技术包括存储技术发展缓慢,单盘容量较大,上层应用对容量的需求也不大,服务器上的硬盘足够满足上层应用需求2、第二阶段:外置扩展柜。随着对存储容量需求增多,受限于单台服务器插槽数量的限制,通过扩展柜来拓展插盘数量。扩展柜和服务器...

2020-12-28 14:24:07 1603

原创 超越时空--读书感

《星际穿越》是一部非常nice的电影,据说其逼真的黑洞等天文场景,是依靠其专业邀请的强大物理团队来支撑设计的,这一点上不得不佩服外国影人的认真。跑远了。。。电影中的天文概念吸引了我,我对所谓的穿越产生了兴趣,虽然我以前看了些天朝穿越文存在yy想法,但是这一次我真的是抱着科学真理的研究精神(谁信啊>>)。       这本书有几个地方给我很深映像:       1.物理学家的傲气从哪儿来?在

2015-02-15 16:06:57 988

转载 常见面试之机器学习算法思想简单梳理

前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。  纵观IT行业的招聘岗位,机器学习之类的岗位还是挺

2013-11-18 10:17:03 3849 1

转载 how-to-learn-machine-learning

There are a few questions in the forums about what and where to learn Machine Learning(ML). The overview of this course also suggests some information during the last week of lectures. Since a lot o

2013-08-20 14:39:38 1825

原创 机器学习经典算法12-SVD及其在推荐中的应用

1.基本介绍         就个人看来,其实SVD(singular valur decomposition)和PCA的功能是一样的,可以用来降低维度、去除噪声,经过PCA和SVD处理后的数据可以做各种处理,包括之前的各个分类和回归的经典算法等,可以说SVD和PCA是高级别的预处理(相对于均值归一化、属性范围调整等)。2.SVD简要说明

2013-08-19 21:41:16 13219 6

原创 机器学习经典算法11-PCA

1.基本介绍         我们人眼最多能看到3维的东西,但是现实生活中有很多大于3维的东西,那么如何对这些数据进行可视化?此外,对多维的数据是否可以压缩以减小存储空间?这都可以用降维的方式达到目的,其中使用广泛的就是PCA(Principle Component Analysis),PCA可以用来降低算法计算开销、去除噪声、使得结果易于展示和理解等。        PCA可以看成在现有

2013-08-19 20:48:09 3568

原创 机器学习经典算法10-Apriori

1.关联分析        通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从大量数据中抽取的知识可用于商品定价、市场促销、存货管理等环节。所谓关联,反映的是一个事物和其他事物之间依赖或关联的知识。从大规模数据集中寻找事物间的隐含关系称为关联分析(association analysis)或者关联规则学习(association rule mining)。

2013-08-19 15:55:53 1995 1

原创 机器学习经典算法9-k-means

1.基本介绍          k

2013-08-19 11:02:08 2630

原创 机器学习经典算法8-树回归

1.简单介绍        线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classificatio

2013-08-19 09:18:49 22718 11

原创 机器学习经典算法7-线性回归

1.简单介绍        分类处理的是离散预测,而对于连续的值类型则可以利用回归进行预测,这里对主要的几个线性回归方法进行初步介绍。这里也有训练集和测试集。2.单变量线性回归的参数求解3.多变量线性回归4.利用矩阵进行参数求解5.局部加权线性回归6.岭回归7.编程实现     这里standMaReg实现的是

2013-08-18 09:53:38 18383 4

原创 win7中cmd下带空格路径

由于经常将程序安装在Program files这种目录下,在cd打开或者cmd下运行exe时,往往不行,例如运行该D:/program files/qq.exe,如果在cmd中输入,会报错,无法识别D:\program,这是因为系统没有把program和files连起来,中间的那个空格作祟。       为了解决该问题,在命令行中输入“D:/program files/qq.exe”即可,即要

2013-08-10 20:34:27 19992 2

原创 机器学习经典算法6-AdaBoost

1.简单介绍         Boosting是由Michael Kearns的一个问题:“若弱学习算法是否可以成为强学习算法(或者弱分类器是否可以成为强分类器)”引发的。假设某个分类算法只比随机猜测的准确度高,那么如何才能得到错误率将近0的分类器呢?该答案由Rob Schapire给出,即采用多个学习或分类算法,吸取多方面的经验。2.Bagging    自举汇聚法(boostr

2013-08-10 19:06:36 4464

原创 机器学习经典算法4-logistic回归

一、算法简要       我们希望有这么一种函数:接受输入然后预测出类别,这样用于分类。这里,用到了数学中的sigmoid函数,sigmoid函数的具体表达式和函数图象如下:     可以较为清楚的看到,当输入的x小于0时,函数值0.5,将分类预测为1。1.1 预测函数的表示     1.2参数的求解二、代码实现          函数sigmoid计算相应

2013-08-03 12:47:09 10761 1

原创 机器学习经典算法5-支持向量机SVM

SVM是公认的较为不错的一个分类算法,下面将首先从SVM的设计之初理念说起,即利用间隔(gap)将数据分开;然后对如何建立优化的间隔分类器以及利用拉格朗日乘子;此外,为了更好的让SVM在基于高维特征的数据中有较好表现,对核函数kernels也进行了一些介绍和解释。关于间隔符号表示函数间隔和几何间隔拉格朗日算子核函数参数

2013-08-02 15:47:02 2109

原创 机器学习经典算法3-朴素贝叶斯

一、算法简要        贝叶斯是从统计概率的角度来进行分类,确切来说是条件概率,例如要猜是哪一类动物,该动物具备的特征是:四条腿、高度超过x米、哺乳动物,那么在这些特征前提下,计算其为哪种动物的概率。二、算法一般流程      1.数据的收集      2.数据的准备:数值型或布尔型      3.分析数据      4.训练算法:计算不同的独立特征的条件概率

2013-07-30 22:24:45 19035

原创 机器学习经典算法2-决策树

一、算法简要         决策树的基本理念就是通过不断的条件筛选,从而得到最后的答案。knn算法最大的缺点就是无法给出数据的内在含义,而决策树则在数据形式非常容易理解,有一定的实际意义。        这里所讲到的决策树非叶子节点的建立是依据信息增益和熵的概念,这个可以自己去查。通过计算按特定属性划分数据集前后发生的熵的变化,选择信息增益最大的特征属性作为分叉节点,从而一步一步进行决策

2013-07-29 11:20:33 3259

原创 机器学习经典算法1--knn

一、算法简要         “物以类聚人以群分”是生活的现实写照,knn就是让那些距离近的人或物归为一类。         问题定义:基于给定的一些示例(事物的属性features和该事物的分类class),对于某个特定或一系列事物的features,来对未定事物进行分类classifying。         一般把给出了事物features和class的集合叫做测试集Traini

2013-07-24 17:30:31 8727

原创 关于机器学习课程的小记

十分高兴自己无意中知道了https://www.coursera.org/这个网站,也十分高兴,Andrew NG在上面开设了机器学习的课程。      不得不说,在线教育是传统教育的一次伟大革新,视频中间夹着问题,这种新颖的方式感觉非常cool。      为了更好的让Andrew课造福大家,本人特地将相关视频、资料和总结进行了汇总。      视频+作业+答案+作业工具+总结:百度

2013-06-07 17:18:19 1768 3

转载 导出jar后无法使用第三方jar包(mysql)

以前写的工程都是没有连接数据库的单个工程(所有代码都是自己写的)没有应用别人的jar,所以导出为jar很简单,只要设置一个Main-Class就行了,也就是程序入口(main所在类)。但是后来写程序涉及到了数据库(以MySQL为例),就需要用到数据库驱动jar包,MySQL-connector-…… . jar,那么打成jar包时发现,数据库驱动jar包,根本没有引入到自己导出的jar包中(可

2013-05-14 14:12:04 1093

原创 python之文件

一直要频繁用到python对文件的操作,这里做个笔记mark。本人平台为windows。1.打开文件       利用函数open即可 f = open(r"F:\big_wsdl\ws_txt\wordlist.txt")2. 读取文件       可以在open后面加个模式‘r’,也可以不用添加。     按行全部读取readlines():      如下所

2013-03-16 08:37:49 1013

原创 关于OutOfMemoryError: Java heap space的备忘

在运行Java程序的时候,经常会碰到Heap错误,杯具的我也遇到了。这里为大家提供一些思路和个人看法。      该错误的核心就是:Java运行时堆栈容量      可以看到,为了保证小于号变成大于号即Java运行时堆栈容量>程序需要分配堆栈容量,以保证程序正常运行,就可以一方面增加Java运行时堆栈容量,另一方面减小程序需要的堆栈容量。      1. 对于增加Java运行时堆栈容量

2013-03-08 09:25:10 890

原创 Lucence3.0的Analyzer备忘

问题:一连串的字符串如何进行分词,例如“onlyLoveforYouYEAH”          想着lucence自带一些analyzer,没有仔细看里面的功能,就开始用了,发现效果并不太好。后来发现需要处理的字符串有一定模式,所以决定不用analyzer了,这里只是做个备忘,指不定以后还会用得着。         import org.apache.lucene.analysis.An

2013-03-04 08:50:57 796

原创 关于dom4j读取xml文件的null Nested exception备忘

由于最近需要针对xml做一些解析工作,决定使用dom4j进行解析,其中碰到了org.dom4j.DocumentException: null Nested exception: null的问题,明显是因为找不到文件路径。而我用的是网上经典的语句 InputStream in = TestDom4j.class.getResourceAsStream(xmlFilePath)。个人目测,很多人

2013-03-03 18:09:17 12687 6

原创 一致性终极解决方案Paxos

相关名词:提案者(Proposers)、决策者(Acceptors)和学习者(或者说书记Learners)基本说明:提案者可以提相应的法案给各个决策者,得到多数决策者的法案会被记录为法律,学习者会记录在案而生效一致性三个基本条件:        a.法案只有在被Proposer提出后才能批准        b.每次只能批准一个法案        c.只有决议确定被批准后Lean

2012-12-20 21:34:29 1171

转载 python encode和decode函数说明

字符串编码常用类型:utf-8,gb2312,cp936,gbk等。python中,我们使用decode()和encode()来进行解码和编码在python中,使用unicode类型作为编码的基础类型。即     decode              encodestr ---------> unicode --------->stru = u'中文' #

2012-11-01 12:48:07 67304 1

原创 利用matlab进行简单的贝叶斯网络构建

matlab的安装       第一次装matlab,装好后发现没有在桌面生成图标,还以为是最后提示的编译器没有安装。结果发现,matlab的图标在其安装的bin目录下面,进行初始化就能开始使用了关于贝叶斯网络      1.简单的教程可以参照如下地址:              http://cs.nyu.edu/faculty/davise/ai/bayesnet.html

2012-10-29 08:58:49 77815 39

原创 R的基本使用(1)

R简介      R是一个开源的语言,提供了用来进行统计计算和可视化的软件工具环境。R语言被广泛的用来开发统计软件和数据分析中。R语言来自S,S来自贝尔实验室(1976)。(贝尔好牛)      R的下载,去cran官网即可http://cran.r-project.org/      library()可以看到目前安装有哪些包,如果要添加的话,可以到cran官网等网站下载(可以goo

2012-10-17 16:47:01 3161

原创 根据两点经纬度计算距离

简介这些经纬线是怎样定出来的呢?地球是在不停地绕地轴旋转(地轴是一根通过地球南北两极和地球中心的假想线),在地球中腰画一个与地轴垂直的大圆圈,使圈上的每一点都和南北两极的距离相等,这个圆圈就叫作“赤道”。在赤道的南北两边,画出许多和赤道平行的圆圈,就是“纬圈”;构成这些圆圈的线段,叫做纬线。我们把赤道定为纬度零度,向南向北各为90度,在赤道以南的叫南纬,在赤道以北的叫北纬。北极就是北纬

2012-10-12 10:18:16 7602 1

原创 networkx使用笔记(五)之实战篇--参数测量

1. 自有测量函数       networkx中提供一些对网络的参数测量基本函数,包括获知网络节点数目(G.number_of_nodes())、网络的边数目(G.number_of_edges())、获取网络节点列表(G.nodes())和获取网络边列表(G.edges())。获取节点的度,G.degree(node_id);如果是有向图,可以是入度或出度,G.in_degree(node

2012-10-05 18:44:45 19141

原创 networkx使用笔记(四)之实战篇--数据的获取

公开的数据集        网络上针对网络的公开数据集较多,可以google斯坦福的SNAP,里面有分类的数据集        这里我用了张华平老师公布的微博数据中的关注语料库        其为xml格式,记录方式如下:       10145100291014510318...      可以利用python十分便利的解析xml,将里面的信息解析出来

2012-10-05 18:16:20 13531 3

原创 octopy的MapReduce编程实例

1.简单介绍          MR编程模式因为云计算的兴趣而火了起来,但是分布的云计算环境个人很难搭建,为了便于大家学习MR编程模式,这里介绍一个给力的python工具octo.py。          它只是一个小小的python文件,但是确可以较为方便的用来进行MR模式编程,这样不用搭建云计算环境就能学习如何以MR方式编程了。          这里以本人刚完成的一个实例做示范,

2012-10-02 17:13:11 2539 2

原创 mysql命令行下的数据导入与导出

由于机器龟速运行,决定分开跑,然后把数据合并,需要将mysql中的数据倒来倒去,没想到其中过程还蛮乱的,这里做个笔记,Mark一下。命令行1.数据库字符集问题   为了避免乱码的问题,先确定下database的编码是何种。   我在data的源电脑上的mysql command中输入 show variables like '%char%' 记得加分号执行   执行后,发现da

2012-08-24 14:09:29 2109

原创 算法设计与分析课程Part1笔记(6)

6. 哈希表与平衡二叉树6.1 全域散列(UniversalHashing)        根据假设可知,有边为0,那么求碰撞的概率转化为求左边等式等于0的概率,可以证明左边等式是集合中的一个随机元素。可以举例子n=7, x4-y4=2 or3,a4=0,1,2,3,4,5,6时,计算左边的值。        所以可以看到为0的概率为1/n,这样碰撞的概率也是1/n。

2012-07-30 10:24:34 1093

原创 算法设计与分析课程Part1笔记(5)

5.1 迪杰斯特拉算法        迪杰斯特拉用来解决单源最短路径问题,该问题的输入是给定的有向图G,边的长度是非负的,给定源节点s;输出是节点s到G中其他节点的最短路径长度。很自然想到利用之前的BFS进行最短路径的计算,但是只有当长度为1的时候,才有效。有一种想法就是将图G中边程度大于1的边进行分解,分解为多条长度为1的边,如果一条边够长,那么这种做法十分麻烦。Dijkstra算法

2012-07-29 18:23:46 842

云计算学习资源整理.pdf

对手上的相关云计算学习资料进行了整理,包含华为HICA和HCIP的学习课件,以及相关培训PPT,以及自学整理的部分资料、顾炯炯的云计算架构技术与实践等。 下载链接见PDF文件尾部。

2021-09-26

简单python数据分析-含源码.rar

基于python 3.x和pycharm编写的一个简单数据分析工具,可以实现数据导入、简单统计分析、t检验、卡方检验和相关系数分析等。有数据示例、软件操作手册和源码,源码基本结构在博客里有解释。

2021-03-23

麻省理工算法导论资料

麻省理工算法导论英文资料,还可以,但是不是很深入,可以作为入门以及资料查询

2011-03-21

高校教师考评管理系统

本人的毕设作业,代码和数据库齐全,还附带有中期报告,答辩ppt等文档一应俱全。

2010-10-28

ViewDLL2.0

能够查看dll中的入口函数,方便调用,并且软件体积很小

2010-04-28

高质量C++编程指南

高质量C++编程指南 作者:林锐 博士.灰常经典,呵呵

2010-04-14

标准C++库函数参考

里面有c和c++的库函数,首先是全,而且是chm格式,方便查找,很帮手!

2010-03-24

即时局域网通讯软件Fei-Q

比飞鸽好用多了,而且也是非常的短小精悍。

2010-01-02

c语言库函数大全

找了很久的库函数大全终于见面了。

2007-08-10

HTML简易教程

比较简单,适合于初学者。

2007-08-10

zion语言编辑器

简单易用,适合初学!

2007-07-31

Notepad++

用本软件可自己观看和编辑由各种语言编写的代码!

2007-07-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除