半_调_子-CSDN博客

原创政务大数据云平台体系及作用

数据采集体系产品及服务：共享交换系统共享交换系统是企业级批量数据处理总线产品。可以快速稳定的实现异地、异构数据库的数交换和整合，确保参建部门之间，参建部门与交换系统之间数据交换过程中的安全，并提供交换审计的管理，对交换流程、交换节点、交换量等进行统一配置和监控等。治理平台社会治理平台是，用于对政府机构的各种数据源进行标准化采集与管理，并对提供数据源的采集队伍进行全方位督查...

2018-12-28 14:33:35 7446

原创区块链的未来

当前的景观和接下来的事情：区块链技术正在发生变化，并将继续改变我们开展日常业务的方式。它对现有的商业模式提出了挑战，并承诺在节省成本，提高效率和透明度方面带来巨大好处。本章将探讨有关该技术的最新发展，新兴趋势，问题和未来预测。我们通过介绍与开放式研究问题相关的一些主题以及与区块链技术相关的改进来完成本书新兴趋势由于学术界和商业界对区块链技术的浓厚兴趣，区块链技术正处于快速...

2018-12-20 15:41:53 3807

原创 kafka官方文档

主要功能：发布和订阅：读取和写入数据流，如消息传递系统。处理：编写可扩展的流处理应用程序，以实时响应事件。存储：将数据流安全地存储在分布式，复制的容错群集中。介绍：Apache Kafka 是一个分布式流媒体平台。这到底是什么意思呢？流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流...

2018-11-21 16:44:11 369

原创 Python与机器学习

了解基本的机器学习原理及算法学习利用机器学习算法解决应用问题的能力掌握sklearn库中常用机器学习基本调用方法，避免重复造车1：机器学习简介机器学习的目标：机器学习是实人工智能的手段，其主要研究内容是如何利用数据和经验进行学习，改善具体算法的性能。多领域交叉，涉及概率论，统计学，算法复杂度理论等多门学科。广泛应用于网络搜索，垃圾邮件过滤，推荐系统，广告投放，信用...

2018-11-21 14:32:10 602 1

原创快速安装pypi各种包

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow

2018-11-21 14:24:15 949

原创 hdfs api java

package com.jsptpd;import java.io.IOException;import java.io.OutputStream;//import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...

2018-11-20 17:13:40 301

原创 mapreduce 读取mysql

package com.jsptpd.mysqlintolocal;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.ap...

2018-11-20 13:44:17 789

原创 windows 开发mapreduce程序的配置

第一：下载所有hadoop二进制包第二：将所有的jar 做成user libary 第三：设置二个环境变量HADOOP_HOME=D:\hadoop-2.7.6HADOOP_USER_NAME=hdfspackage com.jsptpd.test1314;import org.apache.hadoop.conf.Configuration;import org.apa...

2018-11-20 08:54:31 556 1

原创 TF-IDF算法——原理及实现

package com.jsptpd.wordpart;import java.util.Arrays;import java.util.List;/** * //TF-IDF算法——原理及实现 * */public class App { /** * 词频统计 */ public double tf(List<String> doc,Strin...

2018-11-14 18:27:17 808

原创 HDFS commands

• Usage: hadoop fs -mkdir <paths> • Example: hadoop fs -mkdir /user/shiva/dir1 /user/shiva/dir2 2. List the contents of a directory. • Usage: hadoop fs -ls <args> • Example:...

2018-10-31 16:25:23 255

原创 oracle rpm installed

oracle 12C需要的rpm包yum install -y binutils* yum install -y compat-libcap1* yum install -y compat-libstdc++* yum install -y compat-libstdc++* yum install -y gcc-* yum install -y gcc-c++-* yum inst...

2018-10-09 16:55:02 308

原创大数据计算技术

第一章：大数据计算技术概述1.1 课程简介1.2 大数据计算概述1.3 大数据计算概述第二章：大数据计算系统2.1 大数据计算系统2.2 数据存储系统2.3数据处理系统2.4 数据处理系统（续）2.5 数据应用系统第三章：数据采集方法3.1 系统日志数据采集3.2 网络数据采集第四章：数据清洗与规约方法4.1脏数据类型及处理方法4.2数据噪声处理方法...

2018-10-09 08:28:33 3545

原创 spark sql 将数据导入到redis 里面

#coding=utf-8from __future__ import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowimport sysfrom decimal import *from rediscluster import StrictRedisClusterreloa...

2018-07-25 10:52:36 5008 2

原创 https://www.attunity.com/products/

https://www.attunity.com/products/

2018-06-09 00:13:14 429

yarn.scheduler.capacity.default.minimum-user-limit-percent=100yarn.scheduler.capacity.maximum-am-resource-percent=0.2yarn.scheduler.capacity.maximum-applications=10000yarn.scheduler.capacity.node-loca...

2018-06-08 14:45:57 1210

翻译大数据：概念，方法，工具和应用程序

大数据：概念，方法，工具和应用程序目录第1节基本概念和理论本部分通过解决对理解大数据至关重要的基本原则，为此详尽的参考工具奠定了基础。这些页面中的章节提供了将大数据置于信息科学与技术领域的绝佳框架。解决关于将全球措施纳入大数据的关键问题，同时探索这个领域的关键绊脚石。本书包含了16章基础部分，读者可以从强化大数据学科的元素理论专家研究汇编中学习和选择第1章：大数据概述第2章：大数据预测和规范分...

2018-05-08 09:54:09 1697

原创 HBaseShell常用命令

Hbase shell下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '...

2018-05-05 16:08:44 436

原创 centos 7 设置dns

CentOS7启用了新的dns管理工具nmcli connection show 查看当前启动的连接nmcli con mod eth0 ipv4.dns xxxxxxx 更改dns此时测试无法解析域名nmcli con up eth0 配置生效 ...

2018-04-24 08:47:11 956

转载 Apache Jute

在看ZooKeepr的实现是，发现了有几个包缺失了（e.g. data, proto)。以为是code下载错了，后来发现，其实这些包的code都是由Jute自动生成的。Jute主要用到了JavaCC。以前还总是想着使用Bison和JNI来做一个编译器，最近看了ZooKeeper,才发现，原来java早就有个类似的解析器生成工具了JavaCC，决定使用它来继续之前的项目。简单梳理一下ZooKeep...

2018-04-18 16:40:49 636

原创 HDFS 分布式文件系统

hdfs getconf -confKey dfs.namenode.edits.dir概念一台计算机的存储计算能力有限；当一个数据集的大小超过了一台计算机的存储能力时，需要对其进行分区（patition），并存储到多个计算机上。—— 跨网络管理多个计算机储存的文件系统 —— 分布式文件系统存储方式：以流式数据访问模式来存储超大文件流式数据访问模式（如mapreduce）：一次写入，多次读取是...

2018-04-16 09:35:55 363

原创 Bulk Load－HBase数据导入最佳实践

一、概述HBase本身提供了非常多种数据导入的方式，通常有两种经常使用方式：1、使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase2、还有一种方式就是使用HBase原生Client API这两种方式因为须要频繁的与数据所存储的RegionServer通信。一次性入库大量数据时，特别占用资源，所以都不是最有效的。了解过HBase底层原理的...

2018-04-16 09:03:50 373

原创 Sqoop1.4.4 安装

安装Sqoop 1. 下载Sqoop1.4.4安装包: http://archive.apache.org/dist/sqoop/1.4.4/ 我用的是: sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz 2. 创建sqoop目录，将安装包，解压到sqoop目录下： #tar –zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha....

2018-04-16 09:01:28 475

原创 kettle支持kerberos认证的hive集群

Kettle对接指南1.1 环境准备1.1.1 Linux平台安装操作系统步骤 1安装CentOS6.5 Desktop。步骤 1禁用防火墙，SELinux。步骤 2添加本地主机名解析，使用vi /etc/hosts添加本地主机名解析。162.1.115.89 kettle----结束步骤 1下载完整客户端，安装至目录“/opt/hadoopclient...

2018-04-13 15:58:35 7982 4

原创 SQL性能技巧与规范

1 SQL性能技巧1.1 AND OR 索引方式有正确使用到索引的 SQL 语句，以垂直的方向使用索引。用 AND 算符时，只要有任一个字段有加上索引，就能受惠于索引的好处，并避免全表扫描未正确使用索引的 SQL 语句，以水平的方向使用索引。用 OR 算符时，必须「所有」用到的字段都有加上索引，才能有效使用索引、避免全表扫描1.2 合理设计索引例：表RECORD有620000行，试看在不同的...

2018-03-21 14:37:59 563

原创 2017年7大开源商务指南平台和报表工具简介

在这篇文章中，我们将介绍一些顶级开源商务智能平台（ BI ）和报表工具。在企业日常经营活动中，开放数据和大数据的作用正在不断增加，我们将如何分析和呈现我们的数据呢? 该列表覆盖的工具则可以很好解决这个问题。注意，这个列表并不包含所有的开源商业智能平台和报表工具，另外本文将商业智能套件和普通报告工具是放在一起来讲的。TOP 1 BIRTBIRT 是一个开放源码的 Eclipse...

2018-03-15 16:07:31 492

原创开源对象存储方案

CephCeph是一种分布式对象、块和文件存储平台。Ceph的软件库为客户端应用程序提供了这种功能：直接访问基于RADOS对象的存储系统，还为Ceph的一些高级功能提供了基础，包括RADOS块设备（RBD）、RADOS网关和Ceph文件系统。参阅《面向OpenStack的Ceph存储入门介绍》：https://opensource.com/business/15/1/introduction-ce...

2018-03-12 14:03:24 11010

原创 pypi私服搭建

（1）中科大的源：http://rsync.mirrors.ustc.edu.cn（2）创建数据同步目录：/root/pypi（如果想存放到其他目录，可以通过软链接的方式更改）（3）开始同步数据，参考如下脚本：#!/bin/bashpypi_site="rsync://rsync.mirrors.ustc.edu.cn/pypi/web/"dest_dir="/root/pypi"log_f...

2018-03-08 11:02:13 1404

转载 Zookeeper使用--Java API

zookeeper异同步事件https://www.cnblogs.com/leesf456/p/6028416.htmlzookeeper示例代码http://zookeeper.apache.org/doc/r3.1.2/javaExample.html#sc_designhttp://zookeeper.apache.org/doc/r3.4.11/javaExample.html各代码只需...

2018-02-24 17:30:44 300

原创 R重要的基础信息

.libPaths() 用来查看包文件Search() 可以告诉你哪些包已加载并可使用install.packages(“gclus”) 包的安装：update.packages()包的载入：包的安装是指从某个cran镜像站点下载并将其放入库中的过程，要在library命令载入这个包library(gclus)包的使用方法：载入一个包之后，Help(package=”package_name”) ...

2018-02-24 13:45:20 325

原创 java NIO文件系统监控

package chpter15.test.ao1;import java.io.IOException;import java.nio.file.FileSystem;import java.nio.file.FileSystems;import java.nio.file.Paths;import java.nio.file.StandardWatchEventKinds;imp...

2018-02-24 09:40:03 606

原创 MySQL 数据库开发与优化--开发篇

内容：1.SQL查询2.选择合适的引擎3.合理的数据类型4.选择合适的存储引擎5.全球化特征--字符集6.事务及隔离级别7.存储过程与函数8.触发器与视图 Sql查询：DDL:数据结构定义语言如create table ,alter table ,create index....DCL:数据控制语言：如:grant,reovke,...DML:数据操纵语言Insert,delete,update,...

2018-02-11 14:20:17 5769

原创学习方法论

戒骄戒躁兴趣是第一生产力由点到线，由线到面，循序渐进的方法论勤于思考，举一反三理论指导实践，实践回归理论积极豁达，锲而不舍善于总结，乐于分享 ...

2018-02-08 16:17:28 291

原创 DTrace 的下载及安装

如果你使用的Oracle Linux，因为sun被Oracle收购后，Oracle Linux版本的DTrace可以直接在Oracle官网进行下载。下载地址http://www.oracle.com/technetwork/server-storage/linux/downloads/linux-dtrace-2800968.html安装方法http://docs.

2018-02-07 16:00:16 3375

原创 Redis cluster proxy 解决方法

Redis Cluster and DockerCurrently Redis Cluster does not support NATted environments and in general environments where IP addresses or TCP ports are remapped.Docker uses a technique called port ma

2018-01-31 19:10:49 2538

转载 redis如何分配哈希槽

Redis 集群中内置了 16384 个哈希槽，当需要在 Redis 集群中放置一个 key-value时，redis 先对 key 使用 crc16 算法算出一个结果，然后把结果对 16384 取模，这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽，redis 会根据节点数量大致均等的将哈希槽映射到不同的节点。crc 16 算法

2018-01-25 14:08:58 2964

原创 hive分区表增加字段后，依然查出来为null的处理方式

第一步：备份数据：如以下几个表:为假设uoc_order_tuoc_product_tuoc_source_t查询存储路径：使用语句：desc formatted uoc_order_t;hive>desc formatted intf.uoc_order_t;desc formatted intf.uoc_product_t;desc formatte

2018-01-11 14:41:49 1127

原创 Redis cluster 3.2安装文档

架构方面：四组,四主四备第一步：下载wget http://download.redis.io/releases/redis-3.2.11.tar.gz第二步：编译安装系统需要安装yum install gcc -yyum install jemalloc-devel jemalloc -yyum install readline-devel -yyum install ruby -y #安装到...

2018-01-05 14:46:46 378

原创 hive迁移

#coding=utf-8__author__ = 'Administrator'import pymysqlimport sysreload(sys)sys.setdefaultencoding("utf-8")class GetTableinfo: #得到表列表 def getTableList(self,database): conn = py

2017-12-28 05:55:23 417

原创 mgr分析

######mysql configuration for 16G memory######[client]port = 3309default-character-set=utf8socket=/home/mysql/mysql/mysql.sock######the mysql server############basic########[mysqld]

2017-11-10 09:36:41 875

原创性能测试的一些行话，郭芙大话性能测试

性能测试指标：vuser虚拟用户：模拟真实业务和逻辑的虚拟用户，虚拟用户模拟的操作步骤都被记录在虚拟用户脚本里。Vuser脚本用于描述vuser的场景中执行的操作。虚拟用户在性能场景中有以下12个状态： transaction事务：要度量服务器性，需要定义事务每个事务包含事务开始和事务结束标记，事务用来衡量脚本中一行代码或多行代码的执行所耗费的时间。可以将事务开始放

2017-11-09 22:00:07 404

Smash-wall-install.zip

用于Liunx系统mysql redis 等等工具的安装及配置，需要的自已下载

2019-09-04

区块链重塑电信行业

大多数通信服务供应商 (CSP) 都在实施大型数字化转型项目，以便应对困扰他们的颠覆性因素。在此背景下，区块链技术的运用不仅可帮助 CSP 改善当前运营环境，而且能够开拓基于区块链技术的新服务。此外，随着对透明度和信任度的需求持续增加，强大的区块链技术可以强化企业参与生态系统的基础，支持新业务模式，从而实现创收。区块链技术的重要程度只会与日俱增。 CSP 应该从长远利益出发，评估区块链在收入增长和平台业务机遇，以及内部效率方面带来的积极影响。执行摘要区块链是目前热议的技术之一。不同行业的企业都在探索区块链对其所在领域的潜在影响，以及如何利用此项新兴技术获益。通信服务供应商 (CSP) 也不例外。但是， CSP 面临的最大问题是， “能获取什么样的收益？ ”以及“从何处、如何着手？ ”令人欣慰的是，从中获益的机会是真实存在的。区块链共享总账方法的核心特征是在交易过程中，为各方参与者构建可信、安全、透明且可控的生态系统。这可降低成本、提高效率，并改善所有参与者的体验。我们最近开展的全球消费者调研显示，在处理个人数据和保护隐私安全方面， CSP 竟然位居最可信组织的地位，在某些国家或地区甚至超过金融机构和政府。 1 这为他们奠定了优势位置，有助于利用区块链技术来获取收益。对于 CSP 来说，区块链意味着效率的提升以及全新的收入增长机遇

2018-02-24

智能合约的理念

智能合约的理念，何谓“抵押品”？ “抵押品”的目的是什么？它怎样梳理了我们的已有的关系？我认为，尤其是合约的规范化，在我们的关系层面实现了理想化抵押品的蓝图。多种类型的合约条款，如抵押品，债券，产权界定等等，可以嵌入在我们执行条款的硬件和软件中，通过这样的方式使那些不遵守协议者的违约成本很高，（如果需要的话，令人望而却步的）。举一个典型的活生生的例子，我们可以认为智能的原始祖先，是不起眼的自动售货机。在潜在的、损失有限的评估后，使钱箱里的钱远远少于破坏者付出的代价。根据显示的价格该机收取硬币，通过一个简单的机制形成了最初的计算机设计科学，有限自动，传递变化和制造。自动售货机是搬运合约：任何持有硬币的人可以与供应商交易。锁箱和其他安全机制保护储藏的硬币和货物会不被破坏，足以允许自动售货机有利可图地在各种各样的区域部署。优越于自动售货机，智能合约通过数字的方法来控制有价值的、所有类型的任何资产。智能合约涉及到一个动态的、经常主动运作的财产，且提供更好的观察和核查点，其中主动措施必须分毫不差。作为另一个例子，为汽车而设计出的假想数字保障系统。智能合约设计策略建议：持续完善抵押品协议以便其更充分地嵌入到处理资产的合约条款中。根据合约条款，这些协议将使加密密钥完全控制于具有操作属性的人，其人正当地拥有该财产。在最简单的实现中，为了防止偷窃，除非被合法的拥有者完成正确的”挑战-应答“过程，否则车可以呈现出不可操作状态。如果汽车用做以确保还贷，在这种传统的方式来在实现强大的安全性同时将创造一个头痛的债权人 - 收款人将不再能够查收赖账的车。为了解决这一问题，我们可以创建一个智能扣押权协议：如果物主不交费，智能合约调用扣押权协议，其把车钥匙的控制权交给银行。该协议可能会比雇佣追债人更便宜、更有效。进一步的细化，如生成可证明的扣押权权注销，以及当贷款已还清、处于困境和意外情况下的账户操作。例如，当车子在 75 号高速路上奔跑的时候，撤销车子的操作将是粗鲁的。在连续细化的过程中，我们从一个粗糙的抵押品体系，具体化到一个个具体化的合约：（1）选择性地允许业主锁定和排除第三方（2）允许债权人接入的秘密途径（3A）只在违约一段时间且没有付款时秘密途径被打开; 并且（3b）最后的电子支付完成后将永久地关闭秘密途径。成熟的抵押品体系将针对不同的合约执行不同的行为。继续讨论我们的例子，如果汽车的合约是一个租赁，最终付款将关闭承租人访问权; 购买了债权，那就关掉债权人的访问。通过连续的重新设计方式，抵押品体系越来越接近其合约的精髓：管理了覆盖财物，信息或被抵押的。可定性的、不同的合约条款，以及在财产在属性的技术差异，则引出不同的协议

2018-01-15

智投链 (IIC) 白皮书

区块链 (Blockchain) 区块链是一种分布式分类帐技术，基于去中心化的对等网络，用开源软件把密码学原理、时序数据和共识机制相结合，来保障分布式数据库中各节点的连贯和持续，使信息能即时验证、可追溯、但难以篡改和无法屏蔽，从而创造了一套隐私、高效、安全的共享价值体系。根据麦肯锡公司的一份区块链技术报告显示，从 2016 年开始，已有超过 100 种区块链技术解决方案探索。在全球区块链产业中，中国成为最活跃的市场。工信部联合多个行业公司编写的《中国区块链技术和应用白皮书》中列举了金融服务、供应链管理、智能制造、文化娱乐、医疗健康、社会公益和教育就业等区块链可以实现的六个典型应用场景，并分析了区块链与云计算、大数据、物联网、下一代网络、加密技术和人工智能等 6 大类新技术的关系

2018-01-15

中国区块链技术和应用发展白皮书

中国区块链技术和应用发展白皮书，当前，全球新一轮科技革命和产业变革持续深入，国际产业格局加速重塑，创新成为引领发展的第一动力。在这一轮变革中，信息技术是全球研发投入最集中、创新最活跃、应用最广泛、辐射带动作用最大的领域，是全球技术创新的竞争高地，是引领新一轮变革的主导力量。区块链作为分布式数据存储、点对点传输、共识机制、加密算法等技术的集成应用，近年来已成为联合国、国际货币基金组织等国际组织以及许多国家政府研究讨论的热点，产业界也纷纷加大投入力度。目前，区块链的应用已延伸到物联网、智能制造、供应链管理、数字资产交易等多个领域，将为云计算、大数据、移动互联网等新一代信息技术的发展带来新的机遇，有能力引发新一轮的技术创新和产业变革。为推动区块链技术和产业发展，信息化和软件服务业司指导中国电子技术标准化研究院，联合蚂蚁金融云、万向控股、微众银行、乐视、万达网络、平安科技等骨干企业，开展区块链技术和应用发展趋势专题研究，编撰形成了《中国区块链技术和应用发展白皮书（2016）》。白皮书总结了区块链发展现状和趋势，分析了核心关键技术及典型应用场景，提出了我国区块链技术发展路线图和标准化路线图等相关建议。白皮书内容详实、分析透彻，具有较好的参考价值。希望各界共同努力，积极把握区块链发展趋势和规律，营造良好的发展环境，加速推动我国区块链技术和产业发展。工业和信息化部

2018-01-15

（中文）Trinity Pitch Deck

（中文）Trinity Pitch Deck在线业务的性质要求资产能够快速私密地进⾏交易，与传统技术相⽐，⽤户拒绝以牺牲性能作为代价。

2018-01-15

区块链白皮书

香港金融管理局区块链白皮书（英文）To many, “fintech” is a term simply associated with the trendy banking or payment services they use via their smartphone apps, or at the virtual counters of their banks. Internet banking and mobile payment applications are certainly important areas in the application of fintech, but they are far from the only ones. Other technologies, from artificial intelligence to big data analytics to virtual reality, are pushing out the possible frontiers of fintech every day. These technologies could bring a sea change to banking and payment services. The subject of this report – distributed ledger technology (DLT) – is just one key example of this beginning to happen. DLT is perhaps better known as “blockchain”. It is essentially technology that supports networks of databases that enable participants to create, disseminate and store information in a secure and efficient manner. While database technologies are not new, what makes DLT special is that these networks of databases can operate smoothly and securely without necessarily being controlled and administered by a central party that is known and trusted by every participant. The potential applications of DLT, as the fintech industry and many central banks and regulatory authorities soon found, are not limited to dealing in virtual currencies or commodities. The very fact that DLT allows information or records to be transferred and updated by network participants, and this to be done in a trustworthy, secure and efficient way, carries enormous potential. However, while the value proposition of DLT is gradually materialising, the use of DLT in financial services is also introducing new risks and giving rise to new legal and governance issues. These require in-depth study before its full potential can be realised. As a regulatory authority, we need to have a thorough understanding of the various governance, risk management and legal issues associated with DLT before its wider use begins in earnest

2018-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人