【大数据技术】
铭毅天下
《一本书讲透 Elasticsearch》作者,Elastic认证专家、Elastic中国官方合作培训讲师、阿里云MVP、Elastic中文社区2018年、2023年杰出贡献者、CSDN2013年、2016年博客征文特等奖得主、博客全网累计阅读1000万+、已带领国内外近200人+通过Elastic认证专家考试。
展开
-
NFS挂载到其他机器的详细步骤
待实现功能:将10.1.1.36机器上的/share挂载到10.0.1.31机器的/share路径下。1、前提:有两台机器,都是Centos5.X 系统。机器1 IP:10.1.1.36 (作为服务端,必须开启NFS服务、Portmap服务) 机器2 IP:10.0.1.31 (作为客户端,必须开启Portmap服务)2、NFS和Pormap/rpcbind安装不论是5.X的portmap还是6.原创 2016-03-17 22:03:07 · 8971 阅读 · 0 评论 -
Elasticsearch安装与测试验证详解
0、什么是Elasticsearch?【百科】ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。 Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。1、Elasticsearc原创 2016-05-15 14:57:34 · 20429 阅读 · 9 评论 -
Mongo修改数据类型
引言本文主要讲解Mongodb的类型转换。包括:string转double, string转int, string转Date。0. 出现类型不一致的原因ES导入数据到Mongo后,会出现类型统一改为String的问题。 传统关系型数据库,在设计表处,右键就可以完成修改表类型。 但是非关系型数据库,没有这种实现。只有通过命令行操作实现。 验证表明,可以通过如下的接口进行修改。1、Mongodb类原创 2017-05-21 10:30:14 · 7985 阅读 · 4 评论 -
Gephi大数据可视化
0.引言偶然的原因用了Gephi画关系图,并解决了其中遇到的一些问题。Gephi在大数据绘图方面的优势和可视化效果非常震撼,特总结备忘如下。1、Gephi简介[维基百科翻译]Gephi是一个在NetBeans平台上用Java编写的开源网络分析和可视化软件包。可运行在Windows,Linux及Mac os系统。 Gephi已被用于学术界,新闻学和其他领域的一些研究项目,例如在可视化纽约时报内容的全原创 2016-12-13 23:01:16 · 16568 阅读 · 3 评论 -
zeppelin mysql可视化之旅
1. Zeppelin简介ApacheZeppelin 是基于Web的Notebook,支持交互式数据分析。您可以使用SQL,Scala等创建漂亮的数据驱动,交互式和协作文档。(直译,有点别扭) 说白了,就是为关系型数据库、ES等的可视化呈现解决方案。2. Zeppelin安装下载地址:https://zeppelin.apache.org/download.html 解压路径:[root@ y原创 2016-11-02 21:00:10 · 5491 阅读 · 2 评论 -
Scrapy 如何正确配置、验证xpath?
[题记]:xpath难点在使用scrapy做爬取网页的时候,规则的匹配是关键。如:sel.xpath(‘//ul[@id=”dirlist”]/li/dl/dt’)的正确配置。 如何进行xpath的正确配置呢? Scrapy shell交互终端是一个可供较快调试、验证配置结果的好工具。1、Scrapy Shell介绍Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬原创 2016-10-13 20:43:33 · 5118 阅读 · 0 评论 -
Mysql数据库表分区存储到指定磁盘路径
0. 前提:mysql5.6.6以上的版本以上的版本才支持单表指定目录,且目录权限是mysql:mysql。 在mysql中数据文件存放于在my.cnf中datadir指定的路径,使用的表引擎不同产生的文件格式、表文件个数也会有所差异。 mysql的表引擎有多种,表的扩展名也不一样,如innodb用“ .ibd”,archive用“.arc ”,csv用“.csv”等。 1.步骤详解步骤一:设原创 2016-10-21 20:56:40 · 10259 阅读 · 1 评论 -
Mysql数据库表分区深入详解
0、mysql数据库分区的由来?1)传统不分区数据库痛点mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看), 一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放表数据的,一个是myi存表索引的。[root@laoyang test]# ls -al总用量 1811444drwx------ 2原创 2016-10-21 20:50:46 · 29296 阅读 · 8 评论 -
大数据,数据从哪里来?
0、题记之前自己也做过一个大数据方面的讲座,讲解大数据背景、大数据原理、Hadoop(MapReduce、HDFS、分布式)、NoSql非关系型数据库存储、大数据应用(微博来源追踪、微信jiankong等)。诚然,大型互联网公司早已很早布局云计算、使用大数据。 而中、小企业在大数据的浪潮下,也想分得一碗羹,这就遇到棘手的源头问题:大数据,数据从哪里来? 上下班路上,听过3期东方卫视《头脑风暴》,原创 2016-09-09 23:44:36 · 7525 阅读 · 0 评论 -
Scrapy爬取makepolo网站数据深入详解
题记之前对爬虫只是概念了解多,实战少。知道网上流行的有号称免费的八爪鱼等(实际导出数据收费)。 大致知道,所有爬虫要实现爬取网页信息,需要定义正则匹配规则。 这次,项目紧急,才知道“书到用时方恨少”,有限的理论知识是远远不够的。 首先,Google搜索了不同语言实现的开源爬虫,C++、Java、Python、Ruby等。由于C++写的过于庞大,Java代码不太熟。 Python虽也不熟悉,但原创 2016-09-09 23:02:16 · 3220 阅读 · 0 评论 -
Centos下kafka 单机配置部署详解
前提:Linux版本:CentOS release 6.6 (Final) JDK版本:jdk-7u71-linux-x64.tar.gz zookeeper版本:zookeeper-3.3.6.tar.gz kafka版本:kafka_2.11-0.9.0.1.tgz1、安装JDK步骤1:新建路径/usr/java, 并在其下解压 jdk-7u71-linux-x64.tar.gzmkdir原创 2016-05-15 14:40:29 · 17610 阅读 · 2 评论 -
Hadoop HDFS NFS GateWay部署深入详解
目的:通过挂载的方式,可以类似访问本地磁盘的方式一样的访问Hadoop文件,简单、方便、快捷。0.系统版本&hadoop版本 1)系统版本[root@WEB-W031 sbin]# cat /etc/issueCentOS release 5.8 (Final)2)Hadoop版本[root@WEB-W031 /]# hadoop versionHadoop 2.7.2Subversion原创 2016-03-12 13:18:38 · 11079 阅读 · 4 评论 -
Hodoop HDFS NFS GateWay 挂载到其他机器深入详解
0.前提有三台机器:10.0.1.31 为Hadoop NameNode节点机器。 10.1.1.36为Hadoop DataNode节点机器。 10.1.111.13为非Hadoop机器。目前查到的资料里面显示HDFS NFS GateWay的挂载方式为: 参考:https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-原创 2016-03-17 22:13:40 · 4673 阅读 · 0 评论 -
docker ce 使用及两台docker集群通信配置详解
1 docker ce 介绍1.1 docker ce功能Docker CE是简单的经典OSS Docker企业版。 Docker EE是在某些系统上获得认证,并由Docker Inc.提供支持 的 Docker CE版本。 Docker CS(商业支持)是版本<= 1.13的Docker EE的旧捆绑版本。Docker CE是免费的Docker产品的新名称,Docker CE包含了完整的Doc原创 2017-10-11 22:03:03 · 2989 阅读 · 0 评论