大数据技术杂谈
文章平均质量分 74
WotChin
Hello world!
展开
-
linux下最新版本Hadoop安装部署全过程记录
一.首先安装JDK和HADOOP1.在官方网站上下载java的开发包即JDK,扩展名是tar.gz的比较好,个人不太推荐RPM的;2.下载之后,解压缩,tar zxvf xxx.tar.gz ./jdksudo mv ./jdk /usr/lib/jdk我将其存放在/usr/lib/jdk这个目录下了3.同时呢,也下载一下hadoop吧,hadoop的下载地址,原创 2017-03-22 16:09:21 · 1358 阅读 · 0 评论 -
中小型企业基于大数据技术的项目实践
前言ps. 此片博客来源于很久以前的一次gitchat分享,现在搬运到blog中,由于时间久远,里面已经有一些思想和技术已经现在不主流了,供大家参考借鉴。我们这次 Chat 主要交流的主题是:中小型企业基于大数据技术的项目实践,笔者将就大数据技术栈开始说起,同时,在后面的内容中,将涉及笔者在工程实践中的一些具体经验。下面,我们将从大数据技术的干货介绍开始,这部分内容对于有基础的童鞋来说,可以...原创 2019-06-04 22:59:18 · 1099 阅读 · 0 评论 -
工程上的图像检索技术概述
从图像特征说起以人脸识别场景为例,我们通过机器学习算法可以对人脸图片实现降维,即某张图片的尺寸是6464的RGB图像,那么这个图像的维度就是6464*3 = 12288维。直接将这个维度用于图像识别显然是不合适的,这是图像的原始维度,不是图像的特征。提取图像特征的过程是一个降维过程,常用的维度通常是512维,1024维等,也就是将一个图片进行特征提取。提取到的特征向量的维度,说白了就是这个向量...原创 2018-12-06 23:05:02 · 639 阅读 · 0 评论 -
白话大数据--Hash分片
引言大数据系统其中一个典型的特点就是集群化,方便节点横向扩展,也就是所说的弹性扩容。之所以进行横向扩展,是因为纵向扩展难以处理庞大的数据量。将大数据进行切分,是实现数据集群化存储和计算的一种常用手段。 这个过程的学名叫做数据分片,将一个整体的数据划分到不同的节点去存储,然后通过路由来寻找到指定的节点,进行数据的读写操作。常用的数据分片方法有Hash分片和范围分片。而Hash分片包含所说的哈希...原创 2018-05-07 22:18:40 · 4445 阅读 · 0 评论 -
利用Azkaban来完成大数据的任务调度
Azkaban简介Azkaban的架构Azkaban做什么Azkaban安装mysqlCreate a database for Azkaban For exampleCreate a database user for Azkaban For exampleSet user permissions on the databaseConfigure Packet Size may n原创 2018-01-03 15:05:01 · 7338 阅读 · 1 评论 -
大数据时代物联网技术发展前景与应用分析
注:本文由音序为GD的童鞋原创,在此代为发表 摘要: 当前,以物联网、大数据和云计算为代表的新一代信息技术发展迅猛,目前正在由IT时代转向DT时代。物联网技术正在通过与其它新技术的不断融合,加速向智能医疗、新能源、材料等领域渗透。“大数据”已经成为当今人们生产和生活的热点词汇。手机通信、网站访问、微博留言、视频上传、产品生成、科学实验…无处不在的社会和商业活动源源不断地产生各种数据。对于大数据原创 2017-12-24 16:22:59 · 20172 阅读 · 0 评论 -
MongoDB的地理位置搜索GeoSearch使用方法探索
mongoDB的GeoSearchgeohash算法mongoDB使用方法建立索引geo查询方法一网上互相copy的方法方法二官方文档的方法方法三within方法mongoDB的GeoSearch 诸如陌陌,Wechat等附近的人功能,都是基于终端上传数据到服务器,然后服务器对以某一个位置为圆心,以一定范围进行搜索来实现的。 如果我们自己对地理位置坐标进行建模搜索附近的人,需要实现原创 2017-12-21 14:51:50 · 9484 阅读 · 4 评论 -
大数据系列之从大企业架构设计看大数据技术栈
大数据技术这几年来被炒得火热,一方面也真的是数据量越来越大,传统的海量数据处理技术已经不能够满足当前的业务场景;另一反面,也是由于蕴藏在大量数据中的价值越来越引起人们的重视。大数据技术的兴起,与人工智能技术的兴起是相辅相成的。大数据处理技术的及时、高效,更方便人工智能的网格计算,越来越多的中小型创业公司也加入了大数据圈。可能一个比较有趣的问题就是,中小型公司哪里能够获取到数据?更何谈大数据?现原创 2017-09-08 23:55:16 · 4807 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException: Permission denied: user异常解决方法
在执行Hadoop的创建目录、写数据等情况,可能会出现该异常,而在读文件的时候却不会报错,这主要是由于系统的用户名不同导致的,由于我们进行实际开发的时候都是用Windows操作系统,而编译后的JAVA程序是部署在Linux上的。而Windows的用户名一般都是自定义的或者是administrator,Linux的用户名是root,对于Hadoop的部署,也有可能是hadoop用户名。 由于,Had原创 2017-07-07 10:09:33 · 20553 阅读 · 1 评论 -
Hadoop HDFS的namenode WEB访问50070端口打不开解决方法
Hadoop架在阿里云的VPS上,用本地机器访问阿里云的Hadoop的50070端口查看一下,显示的是: 无法显示该网页,扫描了一下端口,确实是这个50070端口没有开放。 然而,所有防火墙也都关闭了,于是,使用命令:netstat -ant查看本地开放的端口,显示的是: 127.0.0.1 50070查看了下官方文档,默认的绑定IP就是在127.0.0.1上,当然,这应该也是出于安全性原创 2017-07-06 10:45:47 · 28106 阅读 · 4 评论 -
Hadoop格式化namenode时候,出现Java异常:URI has an authority component问题的解决
在执行命令:hdfs namenode -formate时候,出现错误,提示: 17/07/06 10:07:39 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.num.users = 1017/07/06 10:07:39 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top原创 2017-07-06 10:26:37 · 5538 阅读 · 0 评论 -
mysql-python:_mysql.c(42) : fatal error C1083: Cannot open include file: 'config-win.h' 非权威指南
吐槽一下python,在python上对mysql直接进行操控套用一个包就行了:pip install mysql-pythonbut...报错!无论你用pip install mysqlclient也还是报错!错误内容是: error: command 'C:\\Users\\Administrator\\AppData\\Local\\Programs\\Co原创 2017-04-19 22:21:03 · 2880 阅读 · 0 评论 -
大规模数据处理系统的最新技术与应用
当我们看到这个标题后,不知道大家会先想到什么。我们可能识别到的几个关键字是:架构、大规模、数据处理、最新。那么,实际上我们在这里希望探讨的话题就是最新的数据处理技术,以及这些最新的数据处理技术给实际生产带来的基于与挑战。从数据处理说起我首先提出一个命题——“IT 系统最核心的内容便是数据处理”,互联网尤甚。熟悉 Web 架构的读者可以知道,当前互联网架构大致可以拆分为三层:Web 前端与...原创 2019-07-26 21:43:46 · 1470 阅读 · 0 评论