自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(633)
  • 收藏
  • 关注

原创 "人工智能时代下的变革与创新发展”技术分享会纪实

12月15日,培训中心2017年技术分享会在中科院计算所礼堂举行。来自培训中心的谢新华教授、计算所寒武纪公司的副总裁钱诚博士、大数据专家王元卓博导、区块链技术刘立祥博士分别做了精彩演讲。如何提升创新能力?许多人相信,创造性是一种特殊才能或精英能力,但这种偏见正在被逐渐推翻。人们认识到,创造性是可以通过学习和实践获得的。谢老师提出创新思维的要点,发散思维、收敛思维、细化思维!

2017-12-18 14:41:00 1153

原创 Python基础原理:FP-growth算法的构建

和Apriori算法相比,FP-growth算法只需要对数据库进行两次遍历,从而高效发现频繁项集。对于搜索引擎公司而言,他们需要通过查看互联网上的用词,来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法,FP-growth算法就可以完成此重任。FP-growth算法是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集。

2017-12-11 10:02:51 570

原创 为什么图式一旦被启动,就会像程序一样被严格执行下去?

所谓创新,本质上是更深刻的认识事物的过程,那么人类的大脑是怎么认识事物的?他有什么特点?针对人类认知问题的研究,瑞士心理学家让•皮亚杰(Jean Piaget,1896—1980)首先创建了认识论。早期人们对人类认知的理解主要是行为主义的 S→R 模型。针对行为主义模型的缺点,皮亚杰提出了图式(SCHEMA,间架)这个概念。图式(schema)是指一

2017-12-04 13:44:04 535

原创 Python网页抓取工具Beautiful Soup面面观!

Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。提供一些简单的、python式的函数,用来处理导航、搜索、修改分析树等功能。Beautiful Soup是一个工具箱,通过解析文档为用户提供需要抓取的数据。因为简单,所以不需要多少代码,就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转

2017-11-28 13:38:58 379

原创 企业平台云化如何迁移?迁移的基本思路是什么?

传统建设模式已无法满足移动互联网模式下业务量弹性变化的需求,以及业务快速增长对处理能力增长的需要,造成资源浪费,维护成本高。存在问题:资源按峰值配置,独立不共享,服务器利用率低大量使用小型机,或SAN存储,成本高系统部署扩容环节多、周期长期望:打破原有模式(每个平台厂家提供软、硬件),统一构筑硬件平台,只向业务厂家采购软件多业务系统共享资源,减少服务器数量,同时

2017-11-23 14:56:03 3894

原创 详解五大分类方法及其优缺点,数据挖掘师必会!

分类算法是一种在专家指导下的,有监督的数据挖掘方法,其种类很多,包括:传统方法:线性判别法、距离判别法、贝叶斯分类器;现代方法:决策树、神经网络ANN、支持向量机SVM;

2017-11-21 13:42:19 3662

原创 如何减少无谓的资源消耗?如何在仓库拓扑中进行 SOC 设计?

仓库中的每个存储单元、传输设施以及物品都与特定属性相关。这些属性被称为存储组织标准(Storage Organization Criteria , SOC)。这个标准定义了特定存储单元中,可以存储哪些类型的物品,或者特定传输设施可以传送哪些类型的物品。存储组织标准的例子还包括:吞吐量类、有害类以及温度类。对每一个标准都有特定的、可枚举的允许值,如对吞吐量类来说有快速、中等和低速几种。

2017-11-14 14:58:39 397

原创 分布式数据仓库中,全局和局部数据仓库有何区别?

大部分企业建立和维护单一中央数据仓库环境。政策、经济和技术等诸多因素都更倾向于建立和维护单一中央数据仓库环境。但是在某些特定场合,需要建立分布式数据仓库环境。为了便于理解分布式数据仓库何时有意义,我们先看一些处理的基本拓扑结构。某企业设有一个总部,负责处理所有的业务。若在局部层上存在某些业务处理,这些处理也是非常基本的。局部层上可能拥有一系列的哑终端,但是所作的处理工作都是不太

2017-11-10 13:58:29 937

原创 全面了解R语言中的k-means如何聚类?

下面将在iris数据集上演示k-means聚类的过程。先从iris数据集中移除Species属性,然后再对数据集iris调用函数kmeans,并将聚类结果存储在变kmeans.result中。在下面的代码中,簇的数目设置为3。iris2 iris2$Species (kmeans.result 将聚类结果与类标号(Species)进行比较,查看相似的对象是否被划分到

2017-11-09 13:51:51 1411

原创 如何利用Spark MLlib进行个性推荐?

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。协同过滤(Collaborative Filtering, 简称CF) 是利用集体智慧的一个典型方法。换句话说,就是借鉴和你相关人群的观点来进行推荐。MLlib中的协同过滤,常应用于推荐系统。利用某兴趣相投、拥有共同经验之群体的喜好,来推荐使用者感兴趣的资讯,补充用户-商品(User-Item

2017-11-07 13:37:53 1230

原创 数据挖掘工具Modeler有哪些重要资源?如何操作?

Modeler是最早的Clementine是ISL公司开发的数据挖掘工具平台。在1999年SPSS公司收购了ISL公司,对其数据挖掘产品进行重新整合和开发。目前SPSS在IBM的旗下,数据挖掘工具Clementine命名为Modeler,统计分析工具命名为Statistic。Modeler自带的重要资源Modeler基本操作Modeler主窗口 数据流区

2017-11-03 10:09:01 1086

原创 什么是存储虚拟化?记录层和块层都包含哪些设备?

存储虚拟化就是将一个存储设备虚拟成多个存储设备,或者将多个存储设备虚拟成一个存储设备的技术。存储虚拟化(1:N)存储就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问,总的来讲可以包含两个方面的含义:一方面它是数据 临时或长期驻留的物理媒介;另一方面,它是保证数据完整安全存放的方式或行为。数据存储就是把这两个方面结合

2017-11-01 10:20:26 1795

原创 对于相同喜好的用户,电商高手用Spark MLlib代码如何操作?

日前,小编接触了一个概念——协同过滤。相信很朋友也是第一次听说,上网在某度搜一下,结果发现这个算法居然是很成熟的。“协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。”通过学习,小编

2017-10-30 10:17:57 439

原创 11月6日机器学习实战直播课,超级礼包来啦!

免费线上直播课,杨文川老师首次讲这个内容。非常适合刚刚接触大数据的生瓜蛋子,以及有一定经验大数据挖掘、大数据分析的老油条!

2017-10-26 14:01:56 1137 1

原创 机器学习讲座,如何利用Spark MLlib进行个性推荐?

随着互联网发展,更多电商网站更加提倡用户参与和用户贡献。而在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。这种在信息过滤和信息系统中很受欢迎的技术,与传统的基于内容过滤直接分析内容进行推荐不同。协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测,然后推荐给

2017-10-25 15:48:21 541

原创 内存虚拟化技术,具体的实现方法有哪两种?

操作系统的内存管理单元(Memory Management Unit,MMU)只能完成一次虚拟地址到物理地址的映射,但获得的物理地址只是虚拟机物理地址而不是机器物理地址,所以需要VMM参与,以获得总线上可以使用的机器地址为实现虚拟地址到机器地址的高效转换

2017-10-23 10:36:40 6228

原创 企业IT 管理的一项核心技能——伙伴管理

伙伴管理已经成为企业的一项核心技能,包括选择合适的伙伴和保持长期的合作关系。IT 管理之所以复杂,大部分原因来自于它需要协调好四个不同的却又重要关系之间的矛盾,包括:IT管理者、外部 IT 伙伴、用户管理以及高层管理者。

2017-10-20 11:01:19 389

原创 初识Hive:3张图了解Hive的数据类型、架构图!

Hive是一个构建在Hadoop上的数据仓库框架,可以将结构化的数据文件,映射为一张数据库表,并提供完整的sql查询功能。可以将sql语句,转换为MapReduce任务进行运行。Hive选择Hadoop来存储和处理数据,因为Hadoop有较好的性价比。Hive设计的目标是让精通SQL技能(Java较弱的)分析师,能够从存放在HDFS的大规模数据集上,运行查询。Hive 一般

2017-10-18 10:04:14 773

原创 如何训练结构化思维能力?它是一种工作方法还是思维方式?

结构化思维(Structured Thinking)是指人在面对工作任务或者难题时,能从多个侧面进行思考,深刻分析导致问题出现的原因,系统制定行动方案,并采取恰当的手段使工作得以高效率开展,取得高绩效的思维方式。

2017-10-16 11:14:35 2684

原创 如何设计数据仓库?粒度问题是一个最重要方面!

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。

2017-10-11 16:08:20 1014

原创 Python安装中需要特别注意的一件事

默认安装的Python开发环境已经附带了很多高级数据类型,如列表、元组、字典、集合、队列等,无需进一步编程就可以使用这些数据类型的操作。

2017-10-10 10:06:12 573

原创 企业是否适合云计算,又如何进行云计算战略规划?

针对已经了解云计算技术并且有意愿向这个方向发展,但又不知道如何做或者从何方向切入的企业与客户,为其分析如何利用云计算技术为业务提供服务、评估IT资源与能力的差距、制定云计算服务的架构与方案、推进路线图及行动计划。

2017-09-26 09:35:44 622

原创 管理晋阶秘籍:一个成功的软件项目,该如何规范管理体系?

一个成功的项目,基本上可以说是四大力量综合应用的结果:人的力量、规则的力量、信息的力量、创新的力量。从上个世纪 80-90 年代开始,随着软件对人们社会生活影响越来越重要,特别是有一类软件,影响着人们的生命、财产、安全,例如:金融、交通、军事等等领域,软件的质量起着举足轻重的地位。如何提升软件质量?没有规则不成方圆,为此人们开始研究软件组织规范的问题。什么是

2017-09-21 11:30:36 393

原创 什么是关联挖掘?如何利用顾客的购物习惯提高销售额?

关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物袋的(购物)内容记录数据而发现的不同

2017-09-20 13:48:13 635

原创 分布式存储系统,HBase的基本原理与基本架构

HBase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;

2017-09-18 10:22:24 2580

原创 架构师提升篇:分布式系统中,如何提升系统性能?

在分布式系统中,平衡业务计算的压力分布,减少网络上的数据流动,是一种提升性能的手段,请看下面的例子。

2017-09-15 14:29:12 1952

原创 云计算基础设施构建:平台云化-数据库云化建议

数据库单机虚拟化承载可行性在数据库单机方式部署模式下,可以采用服务器虚拟化环境进行承载,虚拟化环境中数据库单机系统基本可以正常运行并正常提供数据库的定义、操作、访问控制等功能,性能损失在可接受范围内(5%~26%)。数据库集群虚拟化承载可行性数据库HA双机集群和数据库网格集群可在部分厂商(Vmware、微软、华为、中兴)虚拟化环境中部署,可以提供较高和实时的可用性服务保障,但R

2017-09-14 13:48:07 813

原创 Python可视化的扩展模块matplotlib的简单应用

用于Python科学计算与可视化的扩展模块主要有:NumPy、SciPy、SymPy、matplotlib、Traits、TraitsUI、Chaco、TVTK、Mayavi、VPython、OpenCV。

2017-09-13 14:10:25 838

原创 R语言专题,如何使用party包构建决策树?

下面将在iris数据集上,演示如何使用party包中的函数ctree来建立一棵决策树。iris数据集中的Sepal.Length、Sepal.Width、Petal.Length和Petal.Width,都将用来预测鸢尾花的种类。party包中的函数ctree用来建立决策树,函数predict用来对新数据进行预测。建模之前,将iris数据集划分为两个子集:其中70%的数

2017-09-12 09:43:18 5162

原创 典型的SaaS平台构建--Salesforce CRM介绍

CRM是目前世界范围内最成功的收费Saas业务,Salesforce通过搭建云平台运营云计算的CRM Saas服务,最大化的降低了自身的运营成本和产品的价格,取得了收入的井喷式增长。Salesforce公司成立于1999年,公司自创立起就树立软件即服务的核心理念:使用者不需要再在自己的计算机上装任何软件,只要连上网络,就可以透过浏览器,完成使用各类软件的功能。Salesforce现

2017-09-11 14:51:19 1626

原创 如何用TensorFlow图像处理函数裁剪图像?

当给定大量不同质量的训练数据时,CNN往往能够很好地工作。–图像能够通过可视化的方式,传达复杂场景所蕴含的某种目标主题。–在Stanford Dogs数据集中,重要的是图像能够以可视化的方式,突出图片中狗的重要性。–一幅狗位于画面中心的图像,会被认为比狗作为背景的图像更有价值。并非所有数据集都拥有最有价值的图像。下面所示的两幅图像,按照假设,该数据集本应突出不同的狗的品种

2017-09-08 09:40:21 4428

原创 2017年四季度高端公开课,你对哪个感兴趣?

培训中心的课程体系紧紧围绕“云计算、大数据、软件工程、互联网”的中心思想来设置

2017-09-06 14:24:13 376

原创 3张图了解,关系数据库服务RDS的基本原理

Amazon RDS将MySQL数据库移植到集群中,在一定的范围内解决了关系数据库的可扩展性问题。

2017-09-05 09:41:34 1350

原创 TensorFlow如何通过tf.device函数来指定运行每一个操作的设备?

TensorFlow程序可以通过tf.device函数来指定运行每一个操作的设备。这个设备可以是本地的CPU或者GPU,也可以是某一台远程的服务器。TensorFlow会给每一个可用的设备一个名称,tf.device函数可以通过设备的名称,来指定执行运算的设备。比如CPU在TensorFlow中的名称为/cpu:0。在默认情况下,即使机器有多个CPU,TensorFlo

2017-09-04 10:57:41 4653

原创 如何用数据仓库管理海量数据?直接访问数据仓库数据时的4个限制

有时候数据仓库中需要进行管理的大量数据是一个重要问题。建立简要记录是大量数据管理的一种有效技术。在把操作型环境中的详细记录转入数据仓库中简要记录的过程中,数据量的降低是显著的。

2017-09-01 14:32:39 608

原创 一个单词统计的实例,怎样通过MapReduce完成排序?

假设有一批海量的数据,每个数据都是由26个字母组成的字符串,原始的数据集合是完全无序的,怎样通过MapReduce完成排序工作,使其有序(字典序)呢?

2017-08-31 10:22:54 2444 1

原创 为什么说BP神经网络就是人工神经网络的一种?

BP( Back Propagation)网络是由Rinehart等于1986年提出的,是一种按误差逆传播算法训练的,多层前馈网络,是目前应用最广泛的神经网络模型之一。

2017-08-30 13:36:18 4792

原创 1个TensorFlow样例,终于明白如何实现前向传播过程?

神经网络的结构,就是不同神经元间的连接结构–图示了一个三层全连接神经网络。神经元结构的输出,是所有输入的加权、加上偏置项,再经过一个激活(传递)函数得到。全连接神经网络全连接神经网络,就是相邻两层之间,任意两个节点之间都有连接。–这也是其与后面介绍的卷积层、LSTM结构的区分。–除了输入层,所有节点都代表了一个神经元的结构。计算神经网络的前向

2017-08-28 10:39:09 2808

原创 为期三天的Python语言基础公开课举行

8月23日,培训中心“Python语言基础及数据分析技术”公开课举行。 来自各企业网络采集、处理和规划的负责人或设计人员十余人参加了本次培训。本培训将对基于Python语言进行数据处理、数据探索的基本方法,并对Python语言算法原理及实现进行讲解。  Python是一种面向对象、解释型计算机程序设计语言,Python是纯粹的自由

2017-08-24 10:53:02 578

原创 实施 IT 战略规划,企业信息化不同的发展阶段的3种路线

IT 战略是为企业战略服务的,因此 IT 战略规划必然受企业战略影响。反过来,在竞争和技术进步的环境下,IT 的发展也会很大程度影响企业战略。这就需要双方保持战略上的一致性。

2017-08-21 14:46:31 518

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除