大数据
文章平均质量分 72
Tybyqi
这个作者很懒,什么都没留下…
展开
-
Python Pandas教程:DataFrames入门
Pandas是一个开源Python库,它在Python编程中提供数据分析和操作。它是数据表示,过滤和统计编程中非常有前途的库。Pandas中最重要的部分是DataFrame,您可以在其中存储和播放数据。在本教程中,您将了解DataFrame是什么,如何从不同的源创建它,如何将其导出到不同的输出,以及如何操作其数据。安装熊猫您可以使用pip在Python中安装Pandas。在cmd...翻译 2019-04-23 14:59:36 · 4018 阅读 · 0 评论 -
如何在Spark中使用动态数据转置
Dynamic Transpose是Spark中的一个关键转换,因为它需要大量的迭代。本文将为您提供有关如何使用内存中运算符处理此复杂方案的清晰概念。首先,让我们看看我们拥有的源数据: idoc_number,订单ID,idoc_qualifier_org,idoc_org7738,2364,6,07738,2364,7,07738,2364,8,mystr177...翻译 2018-12-18 16:43:05 · 810 阅读 · 0 评论 -
在PowerShell中将QuickBooks在线数据导入QuickBooks桌面
将QuickBooks导出到QuickBooks Desktop公司可以是一个参与的过程。使用适用于QuickBooks的CData Cmdlet,您可以使用SendQBXMLFile 存储过程轻松地将已保存的QuickBooks Online数据的QBXML文件导入QuickBooks Desktop Company 。在本文中,我们将逐步下载您的QuickBooks Online数据...原创 2018-12-18 16:42:16 · 388 阅读 · 0 评论 -
InfluxData的Chronograf中的预定义仪表板如何使度量标准变得简单
问题可视化数据是一个特别难的问题,但我们不希望在使用可视化工具时考虑这一点。我们希望尽可能快速,轻松地获取数据。考虑到这一点,我特别兴奋地看到最新版本的Chronograf(1.7.3),其中包括改进的入门,这给了我正在寻找的东西。经验我正在使用MySQL作为我的一些Rails应用程序的数据库,我想要一个仪表板,当事情不可避免地出错时(毕竟,这些应用程序是由过去的Katy开发的,她...原创 2018-12-18 16:38:22 · 750 阅读 · 0 评论 -
RavenDB中的递归索引
在这篇文章中,我想展示另一种处理相同问题的方法,但不使用图形查询并仅使用我们在RavenDB 4.1中的功能。我的想法是,给定一个用户,我希望能够通过一个组(如Max,via project-x group)直接(如图中的Sunny)发出查询,以查询该用户可以访问的所有问题。 )或通过递归组,如(Nati,通过project-x - > team-nati groups)。从这篇文章...原创 2018-12-28 16:46:21 · 236 阅读 · 0 评论 -
序列比对算法
Li的对齐代码使用字符列表进行输入和输出。我写了一个简单的包装器来接受字符串和输出字符串。 来自 对齐 导入 Needleman,Hirschberg def compare(str1,str2): seq1 = list(str1) seq2 = list(str2) 对于 算法 在 [ 的Needl...翻译 2018-12-11 15:43:45 · 1183 阅读 · 0 评论 -
客户流失分析:使用Logistic回归预测风险客户
我们都知道线性回归例程非常简单易懂。如果它明确指出自变量的值增加1点,则因变量增加b个单位。但是,在预测离散变量时 - 例如,客户是否会与服务提供商保持联系,或者是否会下雨 - 逻辑回归将会发挥作用。没有很多不同的值,结果只能是1或0。在本文中,我们将学习如何在Excel中构建一个简单的客户流失模型,我们将使用Solver通过减少交叉熵误差来优化此模型。在我们深入了解逻辑回归的细节之前...原创 2018-12-17 15:51:32 · 3411 阅读 · 0 评论 -
什么是数据蔓延?
想象一下,你需要完成税收,但所有相关的文件都是用抽屉分泌,藏在壁橱里,塞在沙发垫子下面。现在想象一下,你在这些地方有多份表格,有些用希腊文写成,有些用英文和西班牙文写成。当这是事物的状态时,你将如何处理税款或清理房屋?不幸的是,这个问题开始困扰着全世界的公司。这是数据蔓延。数据蔓延是指企业每天产生的大量数据和各种数据。随着越来越多的操作系统,数据仓库,各种BYOD(自带设备)设备以及企业和移动...翻译 2018-12-10 16:33:38 · 262 阅读 · 0 评论 -
JVM Advent Calendar:JCP.NEXT,简化了JCP程序
Java Community Process(JCP)版本2.11,重点是简化JCP程序,将于12月14日生效。这篇博文是关于最新的JCP.Next努力,以简化JCP程序JSR生命周期,以响应来自Java开发社区的反馈和2017年引入的更快的发布节奏。作为JCP.Next工作的一部分,作为JCP计划改革的一部分发布的第四个JSR,JSR 387,简化JCP计划,将作为JCP 2.11生效。...翻译 2018-12-10 16:31:44 · 172 阅读 · 0 评论 -
Kafka Streams:它是适合您的流处理引擎吗?
在这篇文章中,我们将详细讨论流媒体访问模式以及HDF 3.3和即将发布的HDP 3.1版本中Kafka Streams支持的增加。在添加Kafka Streams支持之前,HDP和HDF支持两个流处理引擎:带有Storm的Spark Structured Streaming和Streaming Analytics Manager(SAM)。很自然,这会产生以下问题:为什么要在平台上添加第三...翻译 2018-12-26 17:10:16 · 588 阅读 · 0 评论 -
从App启动另一个App的方式
最安全方式 public static void startApp(Context context, String packageName) { try { PackageManager packageManager = context.getApplicationContext().getPackageManager(); ...转载 2018-12-06 17:25:26 · 287 阅读 · 0 评论 -
redis数据结构
redis不只是一个简单的键(key)-值(value)数据库,实际上它是一个数据结构服务器,支持各种类型的值。也就是说,在传统的键-值数据库中,你把字符串键与字符串值联系起来,而在redis,值不仅限于一个简单的字符串,还可以是更复杂的数据结构。下面列出了所有redis支持的数据结构,下文会分别对这些结构进行介绍:二进制安全字符串 队列(lists):基于插入顺序有序存储的字符串元素集合。...原创 2018-12-13 16:59:08 · 166 阅读 · 0 评论 -
大数据#Futures
AI / ML我们将看到从内部迁移到云,然后看到传统的Hadoop转向云。这将导致更高的AI / ML采用率。 只需推动公司的数字化议程。您有足够的计算能力和数据 - 您可以做什么?充分利用这一能力。使用AI / ML过滤数据。让更多人参与进来。 利用更多传感器进入世界,利用大数据和ML异常检测。摄像头检查安全头盔,ML模型来自城市传感器预警指示器。整个经济成为信息驱动。了解可能发生异...翻译 2018-12-03 17:42:32 · 147 阅读 · 0 评论 -
GLM:链接与分发
通常,当我提供关于GLM的课程时,我会尝试坚持链接功能可能比分发更重要的事实。为了说明,请考虑以下数据集,并进行5次观察X = Ç(1,2,3,4,5)Ý = Ç(1,2,4,2,6)base = data.frame(x,y)然后考虑几种模型,具有各种分布,以及一个身份链接; 在那种情况下或日志链接功能,以便:regNId = glm(y ...翻译 2018-12-03 17:40:42 · 816 阅读 · 0 评论 -
什么是数据转换?
数据转换定义数据转换是将数据从一种格式或结构转换为另一种格式或结构的过程。数据转换对于数据集成和数据管理等活动至关重要。数据转换可以包括一系列活动:您可以转换数据类型,通过删除空值或重复数据来清理数据,丰富数据或执行聚合,具体取决于项目的需要。通常,该过程涉及两个阶段。在第一阶段,您:执行数据发现,以识别源和数据类型。 确定需要发生的结构和数据转换。 执行数据映射以定义各个字段...原创 2018-12-03 17:39:49 · 17071 阅读 · 0 评论 -
K-means-:在聚类时发现异常
11月4日和5日,BigML加入哈马德滨哈利法大学的卡塔尔计算研究所(QCRI),将机器学习学校带到卡塔尔的多哈!我们很高兴有机会与QCRI合作。在会议期间,Sanjay Chawla博士讨论了他的异常聚类算法,k-means-。我们认为使用我们的特定领域语言实现机器学习工作流程WhizzML的变体来实现它的变体是一种有趣的练习。 k均值算法的通常过程如下。它从一些数据集,一些数量的簇k和...原创 2018-12-03 17:20:17 · 2877 阅读 · 0 评论 -
Spring Batch:将数据从Web服务处理到MongoDB
概观在这篇文章中,我们将介绍如何创建一个使用Web服务数据并将其插入MongoDB数据库的Spring Batch应用程序。要求阅读本文的开发人员必须熟悉Spring Batch(示例)和MongoDB。环境 Mongo数据库部署在MLab中。请按照本快速入门中的步骤操作。 批处理应用程序部署在Heroku PaaS中。详情 请看这里。 IDE STS或...原创 2018-12-12 16:54:13 · 661 阅读 · 0 评论 -
Apache Spark核心API简介
在这篇文章中,我将讨论Apache Spark作为编程语言的核心API。我假设您具有Spark框架(元组,RDD,对RDD和数据框架)及其初始化步骤的基本知识。当我们推出星火SHEL,L无论是在斯卡拉或Python(即星火Shell或PySpark),它将初始化 sparkContext 为 sc 和 SQLContext 作为 sqlContext。核心API sc.textF...原创 2018-12-24 16:36:11 · 316 阅读 · 0 评论 -
Kafka史上最详细原理总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Li...转载 2018-12-25 15:08:31 · 1141 阅读 · 0 评论 -
非结构化数据是一个Oxymoron
严格来说,“非结构化数据”是一个矛盾。数据必须具有易于理解的结构。通过“非结构化数据”,人们通常指的是具有非表格结构的数据。表格数据 是表格中的数据。每行对应一个主题,每列对应一种测量。这是最容易使用的数据。非表格数据 可能意味着除表格数据之外的任何其他数据,但在实践中它通常意味着 文本,或者它可能意味着具有 图形结构 或某种其他结构的数据。更富有成效的讨论我的观点不是对...原创 2019-01-25 15:34:58 · 359 阅读 · 0 评论 -
Pyodide:Mozilla将Python引入浏览器
Pyodide的演示笔记本的屏幕截图Mozilla上周推出了Pyodide,这是一个开源实验,旨在创建一个完整的Python数据科学堆栈,该堆栈在Web浏览器之外运行。Pyodide来自Iodide,这是另一个早期阶段的Mozilla项目,可以在不需要远程内核的情况下执行数据分析。“遗憾的是,浏览器中的'我们都有'语言,JavaScript,没有成熟的数据科学库套件,而且缺少一些...原创 2019-04-23 14:57:36 · 923 阅读 · 0 评论 -
可视化大气二氧化碳
让我们来看看如何创建一个可视化,显示二氧化碳浓度如何在大气中进化。首先,我们从地球系统研究实验室网站获取如下:将 pandas 导入为 pddata_url = 'ftp://aftp.cmdl.noaa.gov/products/trends/co2/co2_weekly_mlo.txt'co2_data = pd。read_csv(data_url,sep = '...原创 2019-04-23 14:56:23 · 1146 阅读 · 0 评论 -
Jackson通过反射将Json转化为java对象
Jackson的功能比较强大,我们这里主要使用Data Binding的方式,来看看如何使用反射将json转化为java bean,先加入如下依赖:Jackson 的核心模块由三部分组成。jackson-core,核心包,提供基于"流模式"解析的相关 API,它包括 JsonPaser 和 JsonGenerator。 Jackson 内部实现正是通过高性能的流模式 API 的 Jso...原创 2019-04-22 14:28:19 · 1802 阅读 · 0 评论 -
分布式环境中使用的通用数据保持技术概述
本文总结了分布式环境中常用数据处理技术的高级概述,以及它们的一些关键点和优点。正常化还记得RDBMS的旧时代,我们曾经在同一个表中组织关联的列集,外键作为引用实体,主要是为了减少不同表中数据的冗余吗?例如,不是将'employee_ name'列放在employee的personal_detail表和address_detail表中,而是将它保留在personal_details中,而...原创 2019-04-12 10:28:31 · 285 阅读 · 0 评论 -
Lagom零时:CQRS概念
CQRS代表Command Query Responsibility Segregation。个人用于与数据系统交互的方法是将其视为CRUD数据存储。通过这个,我的意思是我们有一些记录结构的心理模型。我们考虑在完成后生成新记录,扫描记录,更新现有记录和删除记录。在最简单的情况下,我们的交互都是关于存储和检索这些记录。如果不考虑用户界面,您无法真正享受CQRS的优势。创建它可以明确地捕获...原创 2019-04-12 10:26:47 · 309 阅读 · 0 评论 -
数据虚拟化及其用例介绍
数据虚拟化是解决几个问题的解决方案。这种解决方案正在蓬勃发展,同比增长强劲。但我们首先从定义开始。Kezako?数据虚拟化是在数据源和数据使用者之间插入数据访问层以促进访问的过程。在实践中,我们有一种SQL请求程序作为工具,它能够查询非常异构的数据源,从传统的SQL数据库到文本或PDF文件,或像Kafka这样的流式源。简而言之,您拥有数据,可以查询数据,并在此数据之间生成连接。实际上,您可...翻译 2019-03-11 15:30:50 · 2094 阅读 · 0 评论 -
Kafka 数据迁移
当Kafka 减少Broker节点后,需要把数据分区迁移到其他节点上,以下将介绍我的一次迁移验证过程。前3步为环境准备,实际数据操作看第4步即可增加Broker节点,也可以采用步骤4相同的方法进行重新分区方案思想:使用kafka-reassign-partitions命令,把partition重新分配到指定的Broker上1、创建测试topic,具有3个分区,2个副本...原创 2019-03-04 16:47:25 · 675 阅读 · 0 评论 -
大数据构建模块:选择体系结构和开源框架
场景:Twitter情感分析许多客户使用社交媒体来谈论产品和服务。Twitter也不例外。充满意见的推文可以传播,并极大地影响您的产品(和公司)的声誉。因此,在我们的示例场景中,让我们假设我们是一家区域性零售公司。我们希望实时跟踪和分析Twitter帖子,以便我们在必要时采取行动,表达我们对积极反馈的欣赏,并迅速减轻客户的不满。 问题:我们有许多产品和服务,并且在所有业务部门中,我们的客...转载 2019-02-14 15:42:36 · 325 阅读 · 0 评论 -
Kafka使用ELK堆栈进行记录
安装Kafka运行Kafka和ELK Stack需要Java,所以让我们从安装Java开始:sudo apt-get updatesudo apt-get install default-jre接下来,Apache Kafka使用ZooKeeper来维护配置信息和同步,因此我们需要在设置Kafka之前安装ZooKeeper:sudo apt-get install zoo...转载 2019-02-14 15:40:03 · 310 阅读 · 0 评论 -
Apache Ignite初学者的简单核对表
如果您是第一次运行Apache Ignite,则可能会遇到一些困难。您刚刚下载了Apache Ignite,运行了几次,并遇到了一些问题。大多数情况下,这些问题以类似的方式解决。因此,我决定创建一个清单,提供建议以帮助您避免开发环境中的问题。1.配置文件当Ignite通过执行ignite.sh|bat 文件以独立模式启动时,Ignite将使用 $IGNITE_HOME/config/d...原创 2019-02-14 15:38:16 · 596 阅读 · 0 评论 -
Spark是一种基本的开源大数据技术
火花前的时间要了解Spark的潜力,它有助于在十年前回顾大数据的形状。在2008 - 2009年,大数据即业务概念经常与Hadoop技术混为一谈。Hadoop是一个开源框架,用于管理在MapReduce编程任务上运行的集群(多台计算机的网络)。MapReduce是Google于2004年推广的一种编程模型,用于构建大型数据集的收集和分析。十年前,范式大数据项目被编码为应用于特定域数据的MapR...翻译 2019-02-14 15:37:02 · 910 阅读 · 0 评论 -
利用微查询和数据锐化进行大数据探索
微查询和数据锐化™微查询和数据锐化是专利技术,它们协同工作以允许用户与大数据进行交互。Zoomdata查询引擎根据所请求的聚合值类型和预期查询运行时间等条件调用它们。微查询和数据锐化非常适合按日期分区并在具有多个处理核心的群集上运行的大数据。此功能是可选的,可以在数据源定义级别禁用。Microqueries分批运行以跨数据库分区对数据进行采样。查询引擎提交一个完整的长时间运行查询,该查询与...原创 2019-02-28 16:17:10 · 417 阅读 · 0 评论 -
在AWS上自动执行Hadoop计算
Hadoop框架为大数据项目提供了许多有用的工具。但是自己管理它太复杂了。几个月前,我正在使用Cloudera部署Hadoop集群。我发现它仅适用于计算和存储容量不变的架构。将Cloudera这样的工具用于需要扩展的系统是一场噩梦。这就是云技术的用武之地,让我们的生活更轻松。Amazon Web Services(AWS)是此用例的最佳选择。AWS为Hadoop提供了一个名为Elastic Map...转载 2019-02-27 16:19:18 · 529 阅读 · 0 评论 -
使用Apache NiFi的SoChain BitCoin,DogeCoin和LiteCoin数据REST API
介绍SoChain提供了一组快速公开,免费提供的API(不要滥用它们)来访问各种网络上的信息。如果您需要这项工作,请捐赠。您将在这个简单的流程中看到的一件事是NiFi擅长于摄取REST并使用JSON。正如您所看到的,NiFi非常适合拆分,切碎,过滤,操作和从中提取。使用生成的可用对象,我们可以构建一个模式,我们也可以进行记录处理。 我刚刚 在新泽西州伍德布里奇举办了一次Futu...原创 2019-01-31 16:40:02 · 674 阅读 · 0 评论 -
HDFS离线分析FsImage元数据
概观HDFS是Hadoop的一部分,它具有下载当前名称节点快照的命令。我们可以通过Spark加载图像或对其进行数据摄取,以使其进入Hive以分析数据并验证它如何使用HDFS。HDFS文件系统元数据存储在名为“FsImage”的文件中。我们在此快照中包含:整个文件系统命名空间。 地图,块和文件复制。 配额,ACLS等属性我必须解决的问题如下:运行该命令以下载映像并生成XML文件...原创 2019-01-31 16:37:47 · 1243 阅读 · 0 评论 -
简单:SuperSet
项目简介本文是关于安装和配置直接从数据库中直接呈现的超酷和令人钦佩的D3图表,而无需任何特殊的API。这些工具名为 SuperSet,它来自Airbnb的团队。本文分为两部分。一个解释了Docker的安装方法,另一个解释了使用Python在本地机器上安装SuperSet。以下是两个部分需要完成的常见操作项。 使用Docker确保以下设置到位。获取最新代码:git c...原创 2019-01-25 16:04:18 · 661 阅读 · 0 评论 -
Kotlin初学者指南
你好,世界Kotlin是一种静态类型语言,在JVM上运行,并且与现有Java代码具有100%的互操作性。对于大多数Java开发人员来说,下面的程序应该非常熟悉:包 com。bugsnag。科特林 ; 公共 课 App { public static void main(String [] args){ 系统。出。println(“Hel...原创 2018-12-05 18:27:17 · 198 阅读 · 0 评论 -
微信小程序http发送json字符串到php后台踩坑
踩坑:我们平时在浏览器发送json字符串是可以顺利接收的,然而在小程序传输json字符串的时候出现了解析不了。原因:微信小程序在传输过程中把空格和双引号转义了解决:把json字符串转回来:htmlspecialchars_decode($json)...原创 2018-12-07 16:46:14 · 1783 阅读 · 0 评论 -
单元测试时静态方法注意点
Mockito 很强大, 但是它不支持静态方法.所以, 就用Powermock了. 要测试的对象是Controller中的接口, 对单元测试来说, 这个待测试的街口应该是一个白盒的. 所以, 其中的第三方(service,其他静态类)的调用都应该使用mock对象来stub起来. 下面是## 示例代码(随手写的,说明问题就行):Controller: @Controllerpublic...原创 2018-11-16 17:59:20 · 2878 阅读 · 0 评论 -
引导分析原则
自动化数据科学的系统最近引起了很多关注。与智能家居助手类似,为企业用户自动化数据科学仅适用于定义明确的任务。我们不希望家庭助理就改变主题进行深入的对话。事实上,最成功的系统严重限制了可能的交互类型,无法处理模糊定义的主题。真正的数据科学问题同样含糊不清:只有业务分析师和数据分析师之间的交互式交流才能在新的有用方向上引导分析,从而可能引发有趣的新见解并进一步加强分析。因此,一旦我们离开完全自动化...原创 2018-11-16 16:45:17 · 413 阅读 · 0 评论