自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TURING.DT

科技改变世界,技术改变人生。

  • 博客(10)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用distcp命令跨集群传输数据

Java API等多种接口对HDFS访问模型都集中于单线程的存取,如果要对一个文件集进行操作,就需要编写一个程序来执行并行操作。HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上,那么可以使用HDFS模式:hadoop distcp hdf

2016-11-30 10:21:55 10818

原创 Apache服务隐藏版本号

安全部门扫描apache漏洞,需要升级apache版本或隐藏版本号。软件的漏洞信息和特定版本是相关的,因此,软件的版本号对攻击者来说是很有价值。在默认情况下,Apache Httpd 系统会把Apache版本模块都显示出来(http返回头信息)。如果列举目录的话,会显示域名信息,服务器版本号,操作系统类型等。隐藏Apache版本号的方法是修改Apache的配置文件:vim /e

2016-11-25 12:59:01 2323

原创 linux iptables规则的查看、添加、删除和修改

1、查看iptables -nvL –line-number-L 查看当前表的所有规则,默认查看的是filter表,如果要查看NAT表,可以加上-t NAT参数-n 不对ip地址进行反查,加上这个参数显示速度会快很多-v 输出详细信息,包含通过该规则的数据包数量,总字节数及相应的网络接口–line-number 显示规则的序列号,这个参数在删除或修改规则时会用到2、添加

2016-11-24 15:27:59 1332

转载 通过tune2fs释放 Linux 系统预留的硬盘空间

大多数文件系统都会默认保留一部分空间用于紧急情况时用(比如硬盘空间满了),这样能保证有些关键应用(比如数据库)在硬盘满的时候有点余地,不致于马上就 crash,如果Linux系统有做文件系统使用率监控的话,那么这时就会有告警上报了,从而给系统维护人员争取一点时间去察觉。但如果你觉得这部分预留的硬盘空间不用有点浪费的话,是否有办法释放这部分文件系统预留的空间呢?在 Linux ext2/ex

2016-11-21 10:57:42 3895

原创 Spark下使用python写wordCount

安装spark就省略了,网上很多方法。test-data.txt文件a b caaabbbccca b cc bavi wordcount.py#!/usr/bin/env python#-*-conding:utf-8-*-import loggingfrom operator import addfrom pyspark impor

2016-11-18 14:46:43 5042 2

原创 CDH报错:请求 Service Monitor 超时。这可能会导致页面响应缓慢。

CDH 运行一段时间CM管理界面提示:请求 Service Monitor 超时。这可能会导致页面响应缓慢。请查看 Service Monitor 的状态。重启动服务器,此时服务器是没有人访问的。依然存在这个问题,查看了内存,还有15G  free,应该没问题的。解决方法:由于相关monitor服务的jvm配置太小导致,随着cloudera的业务量加大,垃圾回收内容增多等原因导

2016-11-18 11:58:05 10312 2

原创 Hadoop hdfs界面:Hadoop Non DFS Used大小问题

最近研究hadoop hdfs 中NonDFSUsed容量是什么,Non DFS Used为非hadoop文件系统所使用的空间,比如说本身的linux系统使用的,或者存放的其它文件。有的时候你会发现HDFS UI界面上显示的Non DFS Used很大,但实际的服务器上都没有那么大的空间了,看看下边的解释:Non DFS Used = Configured Capacity

2016-11-17 14:40:45 6252

原创 欧洲旅游精简分析报告

现在去欧洲旅游的人越来越多了,生活条件好了,大家都想出国玩玩,那么如果想去欧洲应该去哪些城市?去哪个地方?大概花费多少钱?去几天合适?下面从旅游网站收集了些信息进行分析汇总。

2016-11-14 11:53:08 643

原创 使用python对中文文档进行词频统计

对中文文档进行词汇统计1、使用jieba先对中文文档进行分词处理需要处理的clean_data.csv文件内容(三列)http://you.ctrip.com/travels/1322/1360550.html   地中海邮轮+罗马深度自由行      宅猫行天下     http://you.ctrip.com/travels/1400/1600356.html  柏林&

2016-11-11 16:02:16 56123 10

原创 CentOS openssh升级到openssh-7.2版本

安全部门漏洞检查,让升级openssh版本,升级操作不复杂,但毕竟是线上环境,主要注意如果你是通过ssh远程升级ssh版本,万一失败了,ssh不上去,是否可以到现场处理。环境:cat /etc/issueCentOS release 6.5 (Final)ssh -VOpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013op

2016-11-09 15:25:46 36695 18

Python深度学习(Deep Learning With Python中文版)

本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,包括计算机视觉、自然语言处理、产生式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建立图像识别模型、生成图像和文字等能力。

2018-09-29

Spark大数据分析核心概念技术及实践OCR 中文

Spark大数据分析核心概念技术及实践,深度讲解使用spark技术对大数据进行分析,并给出实践案例

2018-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除