- 博客(281)
- 资源 (11)
- 收藏
- 关注
原创 政务大数据云平台体系及作用
数据采集体系产品及服务:共享交换系统共享交换系统是企业级批量数据处理总线产品。可以快速稳定的实现异地、异构数据库的数交换和整合,确保参建部门之间,参建部门与交换系统之间数据交换过程中的安全,并提供交换审计的管理,对交换流程、交换节点、交换量等进行统一配置和监控等。 治理平台社会治理平台是,用于对政府机构的各种数据源进行标准化采集与管理,并对提供数据源的采集队伍进行全方位督查...
2018-12-28 14:33:35 7446
原创 区块链的未来
当前的景观和接下来的事情:区块链技术正在发生变化,并将继续改变我们开展日常业务的方式。 它对现有的商业模式提出了挑战,并承诺在节省成本,提高效率和透明度方面带来巨大好处。 本章将探讨有关该技术的最新发展,新兴趋势,问题和未来预测。我们通过介绍与开放式研究问题相关的一些主题以及与区块链技术相关的改进来完成本书 新兴趋势由于学术界和商业界对区块链技术的浓厚兴趣,区块链技术正处于快速...
2018-12-20 15:41:53 3807
原创 kafka官方文档
主要功能:发布和订阅:读取和写入数据流,如消息传递系统。处理:编写可扩展的流处理应用程序,以实时响应事件。存储:将数据流安全地存储在分布式,复制的容错群集中。介绍:Apache Kafka 是一个分布式流媒体平台。 这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流...
2018-11-21 16:44:11 369
原创 Python与机器学习
了解基本的机器学习原理及算法学习利用机器学习算法解决应用问题的能力掌握sklearn库中常用机器学习基本调用方法,避免重复造车1:机器学习简介机器学习的目标:机器学习是实人工智能的手段,其主要研究内容是如何利用数据和经验进行学习,改善具体算法的性能。多领域交叉,涉及概率论,统计学,算法复杂度理论等多门学科。广泛应用于网络搜索,垃圾邮件过滤,推荐系统,广告投放,信用...
2018-11-21 14:32:10 602 1
原创 快速安装pypi各种包
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow
2018-11-21 14:24:15 949
原创 hdfs api java
package com.jsptpd;import java.io.IOException;import java.io.OutputStream;//import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...
2018-11-20 17:13:40 301
原创 mapreduce 读取mysql
package com.jsptpd.mysqlintolocal;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.ap...
2018-11-20 13:44:17 789
原创 windows 开发mapreduce程序的配置
第一:下载所有hadoop二进制包第二:将所有的jar 做成user libary 第三:设置二个环境变量HADOOP_HOME=D:\hadoop-2.7.6HADOOP_USER_NAME=hdfspackage com.jsptpd.test1314;import org.apache.hadoop.conf.Configuration;import org.apa...
2018-11-20 08:54:31 556 1
原创 TF-IDF算法——原理及实现
package com.jsptpd.wordpart;import java.util.Arrays;import java.util.List;/** * //TF-IDF算法——原理及实现 * */public class App { /** * 词频统计 */ public double tf(List<String> doc,Strin...
2018-11-14 18:27:17 808
原创 HDFS commands
• Usage: hadoop fs -mkdir <paths> • Example: hadoop fs -mkdir /user/shiva/dir1 /user/shiva/dir2 2. List the contents of a directory. • Usage: hadoop fs -ls <args> • Example:...
2018-10-31 16:25:23 255
原创 oracle rpm installed
oracle 12C需要的rpm包yum install -y binutils* yum install -y compat-libcap1* yum install -y compat-libstdc++* yum install -y compat-libstdc++* yum install -y gcc-* yum install -y gcc-c++-* yum inst...
2018-10-09 16:55:02 308
原创 大数据计算技术
第一章:大数据计算技术概述1.1 课程简介1.2 大数据计算概述1.3 大数据计算概述第二章:大数据计算系统2.1 大数据计算系统2.2 数据存储系统2.3数据处理系统2.4 数据处理系统(续)2.5 数据应用系统第三章:数据采集方法3.1 系统日志数据采集3.2 网络数据采集第四章:数据清洗与规约方法4.1脏数据类型及处理方法4.2数据噪声处理方法...
2018-10-09 08:28:33 3545
原创 spark sql 将数据导入到redis 里面
#coding=utf-8from __future__ import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowimport sysfrom decimal import *from rediscluster import StrictRedisClusterreloa...
2018-07-25 10:52:36 5008 2
原创 hadoop yarn 资源配置
yarn.scheduler.capacity.default.minimum-user-limit-percent=100yarn.scheduler.capacity.maximum-am-resource-percent=0.2yarn.scheduler.capacity.maximum-applications=10000yarn.scheduler.capacity.node-loca...
2018-06-08 14:45:57 1210
翻译 大数据:概念,方法,工具和应用程序
大数据:概念,方法,工具和应用程序目录第1节基本概念和理论本部分通过解决对理解大数据至关重要的基本原则,为此详尽的参考工具奠定了基础。这些页面中的章节提供了将大数据置于信息科学与技术领域的绝佳框架。 解决关于将全球措施纳入大数据的关键问题,同时探索这个领域的关键绊脚石。 本书包含了16章基础部分,读者可以从强化大数据学科的元素理论专家研究汇编中学习和选择第1章:大数据概述第2章:大数据预测和规范分...
2018-05-08 09:54:09 1697
原创 HBaseShell常用命令
Hbase shell下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '...
2018-05-05 16:08:44 436
原创 centos 7 设置dns
CentOS7启用了新的dns管理工具nmcli connection show 查看当前启动的连接nmcli con mod eth0 ipv4.dns xxxxxxx 更改dns此时测试无法解析域名nmcli con up eth0 配置生效 ...
2018-04-24 08:47:11 956
转载 Apache Jute
在看ZooKeepr的实现是,发现了有几个包缺失了(e.g. data, proto)。以为是code下载错了,后来发现,其实这些包的code都是由Jute自动生成的。Jute主要用到了JavaCC。以前还总是想着使用Bison和JNI来做一个编译器,最近看了ZooKeeper,才发现,原来java早就有个类似的解析器生成工具了JavaCC, 决定使用它来继续之前的项目。简单梳理一下ZooKeep...
2018-04-18 16:40:49 636
原创 HDFS 分布式文件系统
hdfs getconf -confKey dfs.namenode.edits.dir概念一台计算机的存储计算能力有限;当一个数据集的大小超过了一台计算机的存储能力时,需要对其进行分区(patition),并存储到多个计算机上。—— 跨网络管理多个计算机储存的文件系统 —— 分布式文件系统 存储方式:以流式数据访问模式来存储超大文件流式数据访问模式(如mapreduce):一次写入,多次读取是...
2018-04-16 09:35:55 363
原创 Bulk Load-HBase数据导入最佳实践
一、概述HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、还有一种方式就是使用HBase原生Client API这两种方式因为须要频繁的与数据所存储的RegionServer通信。一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底层原理的...
2018-04-16 09:03:50 373
原创 Sqoop1.4.4 安装
安装Sqoop 1. 下载Sqoop1.4.4安装包: http://archive.apache.org/dist/sqoop/1.4.4/ 我用的是: sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz 2. 创建sqoop目录,将安装包,解压到sqoop目录下: #tar –zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha....
2018-04-16 09:01:28 475
原创 kettle支持kerberos认证的hive集群
Kettle对接指南1.1 环境准备1.1.1 Linux平台安装操作系统步骤 1安装CentOS6.5 Desktop。步骤 1禁用防火墙,SELinux。步骤 2添加本地主机名解析,使用vi /etc/hosts添加本地主机名解析。162.1.115.89 kettle----结束步骤 1下载完整客户端,安装至目录“/opt/hadoopclient...
2018-04-13 15:58:35 7982 4
原创 SQL性能技巧与规范
1 SQL性能技巧1.1 AND OR 索引方式有正确使用到索引的 SQL 语句,以垂直的方向使用索引。用 AND 算符时,只要有任一个字段有加上索引,就能受惠于索引的好处,并避免全表扫描 未正确使用索引的 SQL 语句,以水平的方向使用索引。用 OR 算符时,必须「所有」用到的字段都有加上索引,才能有效使用索引、避免全表扫描1.2 合理设计索引 例:表RECORD有620000行,试看在不同的...
2018-03-21 14:37:59 563
原创 2017年7大开源商务指南平台和报表工具简介
在这篇文章中 , 我们将介绍一些顶级开源商务智能平台( BI ) 和报表工具。 在企业日常经营活动中 , 开放数据和大数据的作用正在不断增加 , 我们将如何分析和呈现我们的数据呢? 该列表覆盖的工具则可以很好解决这个问题。注意 , 这个列表并不包含所有的开源商业智能平台和报表工具, 另外本文将商业智能套件和普通报告工具是放在一起来讲的。TOP 1 BIRTBIRT 是一个开放源码的 Eclipse...
2018-03-15 16:07:31 492
原创 开源对象存储方案
CephCeph是一种分布式对象、块和文件存储平台。Ceph的软件库为客户端应用程序提供了这种功能:直接访问基于RADOS对象的存储系统,还为Ceph的一些高级功能提供了基础,包括RADOS块设备(RBD)、RADOS网关和Ceph文件系统。参阅《面向OpenStack的Ceph存储入门介绍》:https://opensource.com/business/15/1/introduction-ce...
2018-03-12 14:03:24 11010
原创 pypi私服搭建
(1)中科大的源:http://rsync.mirrors.ustc.edu.cn(2)创建数据同步目录:/root/pypi(如果想存放到其他目录,可以通过软链接的方式更改)(3)开始同步数据,参考如下脚本:#!/bin/bashpypi_site="rsync://rsync.mirrors.ustc.edu.cn/pypi/web/"dest_dir="/root/pypi"log_f...
2018-03-08 11:02:13 1404
转载 Zookeeper使用--Java API
zookeeper异同步事件https://www.cnblogs.com/leesf456/p/6028416.htmlzookeeper示例代码http://zookeeper.apache.org/doc/r3.1.2/javaExample.html#sc_designhttp://zookeeper.apache.org/doc/r3.4.11/javaExample.html各代码只需...
2018-02-24 17:30:44 300
原创 R重要的基础信息
.libPaths() 用来查看包文件Search() 可以告诉你哪些包已加载并可使用install.packages(“gclus”) 包的安装:update.packages()包的载入:包的安装是指从某个cran镜像站点下载并将其放入库中的过程,要在library命令载入这个包library(gclus)包的使用方法:载入一个包之后,Help(package=”package_name”) ...
2018-02-24 13:45:20 325
原创 java NIO文件系统监控
package chpter15.test.ao1;import java.io.IOException;import java.nio.file.FileSystem;import java.nio.file.FileSystems;import java.nio.file.Paths;import java.nio.file.StandardWatchEventKinds;imp...
2018-02-24 09:40:03 606
原创 MySQL 数据库开发与优化--开发篇
内容:1.SQL查询2.选择合适的引擎3.合理的数据类型4.选择合适的存储引擎5.全球化特征--字符集6.事务及隔离级别7.存储过程与函数8.触发器与视图 Sql查询:DDL:数据结构定义语言如create table ,alter table ,create index....DCL:数据控制语言:如:grant,reovke,...DML:数据操纵语言Insert,delete,update,...
2018-02-11 14:20:17 5769
原创 学习方法论
戒骄戒躁 兴趣是第一生产力 由点到线,由线到面,循序渐进的方法论 勤于思考,举一反三 理论指导实践,实践回归理论 积极豁达,锲而不舍善于总结,乐于分享 ...
2018-02-08 16:17:28 291
原创 DTrace 的下载及安装
如果你使用的Oracle Linux,因为sun被Oracle收购后,Oracle Linux版本的DTrace可以直接在Oracle官网进行下载。下载地址http://www.oracle.com/technetwork/server-storage/linux/downloads/linux-dtrace-2800968.html安装方法http://docs.
2018-02-07 16:00:16 3375
原创 Redis cluster proxy 解决方法
Redis Cluster and DockerCurrently Redis Cluster does not support NATted environments and in general environments where IP addresses or TCP ports are remapped.Docker uses a technique called port ma
2018-01-31 19:10:49 2538
转载 redis如何分配哈希槽
Redis 集群中内置了 16384 个哈希槽,当需要在 Redis 集群中放置一个 key-value时,redis 先对 key 使用 crc16 算法算出一个结果,然后把结果对 16384 取模,这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽,redis 会根据节点数量大致均等的将哈希槽映射到不同的节点。crc 16 算法
2018-01-25 14:08:58 2964
原创 hive分区表增加字段后,依然查出来为null的处理方式
第一步:备份数据:如以下几个表:为假设uoc_order_tuoc_product_tuoc_source_t查询存储路径:使用语句:desc formatted uoc_order_t;hive>desc formatted intf.uoc_order_t;desc formatted intf.uoc_product_t;desc formatte
2018-01-11 14:41:49 1127
原创 Redis cluster 3.2安装文档
架构方面:四组,四主四备第一步:下载wget http://download.redis.io/releases/redis-3.2.11.tar.gz第二步:编译安装系统需要安装yum install gcc -yyum install jemalloc-devel jemalloc -yyum install readline-devel -yyum install ruby -y #安装到...
2018-01-05 14:46:46 378
原创 hive迁移
#coding=utf-8__author__ = 'Administrator'import pymysqlimport sysreload(sys)sys.setdefaultencoding("utf-8")class GetTableinfo: #得到表列表 def getTableList(self,database): conn = py
2017-12-28 05:55:23 417
原创 mgr分析
######mysql configuration for 16G memory######[client]port = 3309default-character-set=utf8socket=/home/mysql/mysql/mysql.sock######the mysql server############basic########[mysqld]
2017-11-10 09:36:41 875
原创 性能测试的一些行话,郭芙大话性能测试
性能测试指标:vuser虚拟用户:模拟真实业务和逻辑的虚拟用户,虚拟用户模拟的操作步骤都被记录在虚拟用户脚本里。Vuser脚本用于描述vuser的场景中执行的操作。虚拟用户在性能场景中有以下12个状态: transaction事务:要度量服务器性,需要定义事务每个事务包含事务开始和事务结束标记,事务用来衡量脚本中一行代码或多行代码的执行所耗费的时间。可以将事务开始放
2017-11-09 22:00:07 404
区块链重塑电信行业
2018-02-24
智能合约的理念
2018-01-15
智投链 (IIC) 白皮书
2018-01-15
中国区块链技术和应用发展白皮书
2018-01-15
(中文)Trinity Pitch Deck
2018-01-15
区块链白皮书
2018-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人