工具
文章平均质量分 73
Running_you
这个作者很懒,什么都没留下…
展开
-
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2015-07-08 10:07:51 · 590 阅读 · 0 评论 -
Python优秀函数库集锦(一)
Python第三方函数库数据分析函数库Numpy:Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。 Pandas:它是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效原创 2015-12-26 15:06:10 · 3917 阅读 · 0 评论 -
mahout的安装,配置及聚类测试
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。最新版apache-mahout-distribution原创 2015-08-12 20:14:18 · 897 阅读 · 0 评论 -
SparkSQL与Hive的应用关系
Spark生态圈 Spark是基于scala语言产生的,因此有关spark中的各大编程应用也基本跟scala脱不开关系,但是好在spark的平台化做的不错,目前可支持python及R等语言的应用,这些得益于sparkSQL组件的存在,整个spark的结构组件如下如所示: 关于spark的组件功能描述不多说,可以参考博客spark入门系列及 官方资料等,保证有个初步的印象。SparkSQL在原创 2015-11-03 20:04:28 · 6780 阅读 · 0 评论 -
sqoop的基本应用要点
sqoop可用于将关系型数据库与分布式存储系统进行数据的转换存储,例如可以将mysql中的数据与hive下的存储数据进行互转,但实质上仍然是读取hdfs下的存储文件。 有关sqoop的基本应用语法可以参考以下两篇sqoop中文手册: http://blog.csdn.net/myrainblues/article/details/43673129 http://www.zihou.me/htm原创 2015-12-08 10:06:45 · 1178 阅读 · 0 评论 -
HIVE中get_json_object与json_tuple使用
hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置: set hivevar:msg={“message”:”2015/12/08 09:14:4”, “client”: “10.108.24.253”, “server”: “passpo原创 2015-12-08 10:25:30 · 58261 阅读 · 1 评论 -
Hive 函数高级编程
虽然Hive提供了很多函数,但是有些还是难以满足我们的需求,因此Hive提供了自定义函数开发,经常用到的主要有两种类型:UDF(User-Defined-Function)和UDAF(User- Defined Aggregation Funcation),前者主要用来实现一进一出的操作,而后者就是实现多进一出的操作。(1)UDF实现•UDF(User-Defined-Function),UDF函原创 2015-07-20 09:58:26 · 822 阅读 · 0 评论 -
mahout算法数据输入规则
Mahout机器学习平台之聚类算法详细剖析数据输入中的格式说明: test类型 (seqdirectory函数) sequencefile类型 (seq2sparse函数) vector类型原创 2015-08-14 15:30:45 · 735 阅读 · 0 评论 -
正则表达式语法
正则表达式语法在线正则表达式测试原创 2015-08-20 16:22:23 · 779 阅读 · 0 评论 -
SSH原理与运用
远程登录一、什么是SSH? 简单说,SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。最早的时候,互联网通信都是明文通信,一旦被截获,内容就暴露无疑。1995年,芬兰学者Tatu Ylonen设计了SSH协议,将登录信息全部加密,成为互联网安全的一个基本解决方案,迅速在全世转载 2015-08-13 10:58:10 · 450 阅读 · 0 评论 -
xshell的快捷键(提高效率)
删除 ctrl + d 删除光标所在位置上的字符相当于VIM里x或者dl ctrl + h 删除光标所在位置前的字符相当于VIM里hx或者dh ctrl + k 删除光标后面所有字符相当于VIM里d shift+$ ctrl + u 删除光标前面所有字符相当于VIM里d shift+^ ctrl + w 删除光标前一个单词相当于VIM里db转载 2015-07-12 09:22:34 · 978 阅读 · 0 评论 -
vim 的分屏与多标签应用
1. 分屏命令分屏启动Vim 使用大写的O参数来垂直分屏。 vim -On file1 file2 … 使用小写的o参数来水平分屏。 vim -on file1 file2 … 注释: n是数字,表示分成几个屏。屏幕之间的切换 Ctrl+w,若要关闭某个屏幕则输入:wq Vim中的光标键是h, j, k, l,要在各个屏间切换,只需要先按一下Ctrl+W在水平分屏原创 2015-07-13 09:49:11 · 1156 阅读 · 0 评论 -
linux 常用命令学习
开始详细系统的学习linux常用命令,坚持每天一个命令,所以这个系列为每天一个linux命令。学习的主要参考资料为: 1.《鸟哥的linux私房菜》 2.http://codingstandards.iteye.com/blog/786653 3.linux命令五分钟系列 4.其他互联网资料,google,baidu等搜索引擎一. 文件目录操作命令:1.每天一个linux命令(1):ls命转载 2015-07-20 15:13:53 · 458 阅读 · 0 评论 -
python 模拟抓取网页的工具包
这段时间在尝试破解各大网站的登录系统,同时又要避开人机识别码的验证,通过chrome的js调试器不断尝试深入了解各网站系统的登录流程及验证过程,总结发现了几款非常实用的工具包,对于抓取网站数据或是执行js脚本等非常有帮助,大大提高开发的效率,具体的开发细节不便透露,简要介绍下使用的工具包:1,python目前开发已经逐渐适应了python的简洁高效,有太多强大的工具包可支撑开发的需要,为开发者避开底原创 2016-04-28 10:52:38 · 1269 阅读 · 0 评论