2015年11月_ASIA_kobe

原创从小白到大数据科学家

参加北大“智能多媒体大数据研讨会”，听取很多业界大牛相关工作的分享。In some way，I got some information and it broaden my horizons.Then i will share my feeling.（题目是噱头，但也是一个收获）1、重新认识大数据今天报告涉及到很多方面：医疗（包括基于天河超级计算机的应用）、城市计算（主要是交通、环境监测）

2015-11-26 22:38:43 1644 1

原创 Scala学习（二）---入门基础知识

元组使用：元组List一样而是不能改变的结构，但是元组内每个元素的类型可以不同，List也可以但是List是推断为any，而Tuple推断为各个元素的类型。元组的作用一般为在方法里返回对个对象，元组对其内元素的操作为._来取元素（其是基于1开始索引而不是0）。 val pair = (1,"Hi")scala> print(pair._1)1集(set)和映射(map)

2015-11-28 16:09:25 544

转载 Recipes for Running Spark Streaming Applications in Production

转自：https://spark-summit.org/2015/events/recipes-for-running-spark-streaming-applications-in-production/Tathagata Das (Databricks)Tuesday, June 162:00 PM – 2:30 PMGrand Ballroom BSlides PDF

2015-11-27 23:42:47 470

转载 Centos6.4 本地yum源配置

转自：http://www.cnblogs.com/shenliang123/p/3829044.html由于单位的服务器均使用的是内网，而安装一些软件如Git，需要很多的依赖包，使用yum安装相对简单，由于不能联网故配置本地yum源配置。1.首先将需要rpm库添加到系统中：1).虚拟机中安装的linux操作系统:则只需将安装包ISO文件挂载到media下面（如无法挂载请参考htt

2015-11-26 00:02:48 684

转载 CentOS搭建本地yum源（http方式）

YUM介绍YUM主要用于自动升级、安装\移除rpm软件包，它能自动查找并解决rpm包之间的依赖关系，要成功的使用YUM工具更新系统和软件，需要有一个包含各种rpm软件包的repository（软件仓库），提供软件仓库的服务器习惯上成为“源”服务器。网络上有大量的源服务器，但是，由于受到网络连接速度、带宽的限制，导致软件安装耗时过长甚至失败。特别是当有大量服务器大量软件包需要升级时，更新的缓慢程

2015-11-25 23:59:00 561

转载学习大数据、云技术如何提高部署学习效率

转自：http://www.aboutyun.com/thread-14575-1-1.html1.如何避免反复部署集群？2.快照的作用是什么？3.缓存服务器能起到什么作用？学习大数据、云技术，我们首先应该掌握的是部署，通过部署，我们认识hadoop、openstack等大数据、云技术。所以部署是我们入门的第一步。在我们学习的过程中，部署异常是经常遇

2015-11-25 23:40:24 900

转载李滔：搜狐基于Spark的新闻和广告推荐实战

转自：http://www.aboutyun.com/thread-14577-1-2.html可视化工具推荐：Bi类需求在hive和sparkSQL实现，那前台显示有没有好工具？如果有比较明细的数据呢？李滔：展示工具，商用的比如Tableau，开源的比如Saiku等。群内朋友补充：hue也可以。1.如何建立用户兴趣标签？2.如何对用户兴趣的评估？3.什

2015-11-25 22:51:40 1520

原创 Scala学习（一）---入门基础知识

1、初识Scala Scala将面向对象和函数式编程融为一体，因此具有可扩张性。Scala里函数就是对象。函数类型能够被子类继承的类。面向对象编程的动机非常简单：绝大多数的程序都需要某种结构。而最直接的办法就是把数据和操作放进某种形式的容器中。面向对象编程里最伟大的思想是让这些容器完全地通用化，这样就能像保存数据那样保存操作，并且可以把这些容器作为值存储到其他容器里，或作为参数传

2015-11-25 21:21:56 685

转载将web攻击数据可视化

转自：http://www.freebuf.com/articles/web/25476.html去年一直在做日志分析的工作，略有心得，对于恶意攻击我们需要知道啥时候有人攻击我们了，攻击了多少次，这个有利于领导知道你做了哪些工作。从防护者的角度来说，我不止关心payload、或者request url还关心谁经常来攻击我们，在哪些时间段比较集中，这些都需要数据化，从程序员的角度思考，能

2015-11-25 09:29:51 1410

转载大数据安全分析：我们从日志中得到的（一）

转自：http://www.freebuf.com/articles/web/25613.html简介在一个嘈杂的环境中，怎样才能尽可能的发现异常？不外乎黑白名单。黑名单，又可以总结出两种方式：1.基于特征的检测，2.基于行为的检测基于特征，是一种立竿见影的手段，对于一般的攻击很有效，但是永远不可能做到百分百，并且实效性极强，需要强大的响应队伍，对新漏洞尽可

2015-11-25 09:15:14 2916

转载大数据安全分析漫谈

转自：http://www.freebuf.com/articles/database/68877.html前言写这篇文章有三个原因，一是在工作中一直艰难地摸索着这块也曾写过一篇很粗略的大数据之安全漫谈（想继续吐槽）；二是看到了阿里的招聘广告-一起来聊聊这个新职位：大数据安全分析师；三是整个2015的RSA会议 Intelligence Data-Driven 出境率太高

2015-11-24 21:19:40 2270

转载七牛是如何搞定每天500亿条日志的

转自：http://news.csdn.net/article_preview.html?preview=1&reload=1&arcid=2825342概述数据平台在大部分公司都属于支撑性平台，做的不好立刻会被吐槽，这点和运维部门很像。所以在技术选型上优先考虑现成的工具，快速出成果，没必要去担心有技术负担。早期，我们走过弯路，认为没多少工作量，收集存储和计算都自己研发，发

2015-11-23 21:16:39 820

原创 zookeeper 启动错误

zookeeper.out: Permission denied错误解决方法zkServer.sh: line 109: ./zookeeper.out: Permission denied STARTED从问题描述，可以看出都是权限问题。在第二个提示中，找到第109行。发现如下： 109 nohup $JAVA "-Dzookeeper.log.di

2015-11-23 12:23:05 2245

转载 Spark Streaming和Kafka整合开发指南

转自：http://dataunion.org/15193.htmlApache Kafka是一个分布式的消息发布-订阅系统。可以说，任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据，这里将会介绍两种方法：（1）、使用Receivers和Kafka高层次的API；（2）、使用Direct API，这是使用

2015-11-23 09:42:32 876

原创 spark submit 运行开发的应用程序

sbt打包经过一段时间的理解和学习，对sbt有点了了解，也成功安装成功，并打好了自己的程序jar包。1、工程目录保证sbt安装成功，可以console下命令：sbt sbt -version sbt sbt-version[info] Loading global plugins from /home/hadoop/.sbt/0.13/plugins[info] Set cur

2015-11-21 17:16:06 751

原创 sbt使用详解

前两天安好的sbt但是在真正的用的时候还是遇到很多问题，所以在系统学习了解下。安装：我的系统为centos6.5故采用官方提供的在线安装：curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.reposudo mv bintray-sbt-rpm.repo /etc/yum.repos.d/sudo yum install s

2015-11-20 19:19:01 25643

原创 Spark学习（三）---Spark Standalone Mode说明及参数配置详解

启动集群–启动standalone模式下master server（启动完毕后可以通过http://master:8080来看你对应的spark-url，其中master对应你机器的hostname） ./sbin/start-master.sh –启动one or more works并且将他们连接到master ./sbin/start-slaves.sh –全部启动 ./sbin/

2015-11-20 15:12:36 4469

原创 Spark学习（二）---kafka+SparkStreaming的搭建与连接

kafka+Sparkstreaming环境搭建与配置说明以及相关的测试代码的编写

2015-11-19 21:18:31 11972

转载加速 SBT 下载依赖库的速度

SBT翻墙手册：http://afoo.me/posts/2014-11-05-how-make-sbt-jump-over-GFW.html根据 SBT 的官网文档中 Proxy Repositories 部分的描述, 可以通过改变repositories 的 url 列表来优化.配置国内代理库感谢 OSChina 提供了 Maven Center 的镜像, 配置添加它有

2015-11-19 13:25:41 2568

转载用SBT编译Spark的WordCount程序

转自：http://www.aboutyun.com/thread-8587-1-1.htmlsbt介绍sbt是一个代码编译工具，是scala界的mvn，可以编译scala，java等，需要java1.6以上。sbt项目环境建立sbt编译需要固定的目录格式，并且需要联网，sbt会将依赖的jar包下载到用户home的.ivy2下面，目录结构如下：|--bu

2015-11-19 11:15:24 826

转载基于Spark Streaming的僵尸主机检测算法

转自：http://www.tuicool.com/articles/7bUJBbV基于Spark Streaming的僵尸主机检测算法张蕾李井泉曲武白涛僵尸网络通过多类传播和感染程序，构建一个可一对多控制的网络，操控大量僵尸主机发起DDoS攻击、发送垃圾邮件、偷窃敏感数据和钓鱼等恶意行为。基于一种分布式实时处理框架，提出一种分布式的僵尸主机检测算法，该算法能

2015-11-18 21:15:37 1168

原创 Spark学习--spark-shell使用

Spark-shell使用配置好Spark集群，测试Sparkwordcount程序，可以通过基本的Spark-shell来进行交互式的代码提交，比如：val textFile = sc.textFile("words/test.txt")val result = textFile.flatMap(line => line.split("\\s+")).map(wo

2015-11-18 21:13:27 630

原创 Spark学习（一）---Spark-shell使用

Spark-shell使用配置好Spark集群，测试Sparkwordcount程序，可以通过基本的Spark-shell来进行交互式的代码提交，比如：val textFile = sc.textFile("words/test.txt")val result = textFile.flatMap(line => line.split("\\s+")).map(word

2015-11-18 21:06:55 2189

转载 SparkStreaming实验错误

转自：http://blog.csdn.net/stark_summer/article/details/49251709NetworkWordCount代码/** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the N

2015-11-18 16:17:00 1956

原创 copyFromLocal异常DataNode启动不了

copyFromLocal: File /user/apple/test.txt.COPYING could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.刚才执行 h

2015-11-17 17:17:46 605

转载 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-

目录前言 1.相关环境 2.获取代码 3.安装Hadoop 4.安装Native Lib 5.安装完成 6.相关链接前言最近需要安装CDH4.5, 在重启后提示缺失native lib, 经过一番折腾后,终于安装成功,下面记录下native lib的获取过程.@Author duangr@Website http://www.linuxidc.com/Linux/2014-0

2015-11-17 16:34:12 666

原创 hdfs创建文件出错

hadoop fs 下的命令不能使用，使用hadoop fs -ls提示：ls: `.’: No such file or directory。解决方案： bin/hadoop hdfs fs -mkdir -p /in bin/hadoop hdfs fs -put /home/du/input /in如果Apache hadoop版本是2.x. bin/hdfs df

2015-11-17 16:18:57 2577

转载 hadoop常用命令

官网手册很详细网址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文

2015-11-17 15:23:54 404

原创 spark集群配置错误

1.当用hdfs传文件时，出现如下错误： Call to Master:9000 failed on connection exception 解决办法：把hadoop配置文件中的hdfs-site.xml中 dfs.data.dir /data/hdfs/data 中的文件夹中的所有文件删掉然后在hadoop

2015-11-17 15:17:35 516

原创 centos把用户加入sudoers

切换到root用户，su root 2.chmod u+w /etc/sudoers 3.vi /etc/sudoers 4.在root ALL=(ALL) ALL,在他下面添加xxx ALL=(ALL) ALL (这里的xxx是你的用户名) ps:这里说下你可以sudoers添加下面四行中任意一条 youuser ALL=(ALL) A

2015-11-17 11:20:59 5410

原创单机运行spark-shell出现ERROR Remoting: Remoting error: [Startup failed]

从现象来看应该akka不能绑定到ip或者端口，于是google找到答案，http://mail-archives.apache.org/mod_mbox/spark-user/201402.mbox/%[email protected]%3E只要将conf/spark-env.sh添加两个环境变量：export SPARK_MASTER_IP=l

2015-11-16 22:43:39 819

转载 Apache Spark学习：利用Eclipse构建Spark集成开发环境

董的博客 » Apache Spark学习：利用Eclipse构建Spark集成开发环境 addEventListener("load", function(){ setTimeout(updateLayout, 0); }, false); var current

2015-11-16 20:35:54 919

原创 eclipse 配置scala问题-More than one scala library found in the build path

配置eclipse出错按照这篇博客http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/安装scalaIDE插件，但是并没有成功，当引入如下spark-assembly-1.5.1-hadoop2.6.0.jar（对应我自己的spark下的jar包）会报错，提示这个jar包与源环境中的jar包冲突（提示scala环境冲突）—-未解决！！

2015-11-16 18:55:36 14707

转载 Kafka+Spark Streaming+Redis实时计算整合实践

Kafka+Spark Streaming+Redis实时计算整合实践

2015-11-12 17:15:44 2354

原创 Python学习之路七---进阶知识

模块模块也就是子程序，它的主函数用于定义，包括定义函数、类和变量。如果模块包含测试代码，则应该将这部分代码放置在检查name==’main‘.在PYTHONPATH中找到的模块都可以导入。语句import foo可以导入存储在foo.py文件中的模块。包：包是包含模块的模块，包是作为包含init.py文件的目录来实现的。探究模块：将模块导入交互式编辑器后，可以使用很多方法对其进行探究来使用，

2015-11-12 17:09:08 538

转载 naive-bayesian-朴素贝叶斯

朴素贝叶斯

2015-11-10 11:22:58 733

转载 Python函数式编程指南（一）：概述

这大概算是Python最难啃的一块骨头吧。在我Python生涯的这一年里，我遇到了一些Pythoner，他们毫无例外地完全不会使用函数式编程（有些人喜欢称为Pythonic），比如，从来不会传递函数，不知道lambda是什么意思，知道列表展开但从来不知道用在哪里，对Python不提供经典for循环感到无所适从，言谈之中表现出对函数式风格的一种抗拒甚至厌恶。我尝试剖析这个问题，最终总结了这么两个原因：

2015-11-09 15:27:32 498

原创 Python学习之路六---迭代器、生成器

迭代器迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完而结束。迭代器只能往前不能后退。迭代器不要求你事先准备好整个迭代过程中所有的元素。迭代器仅仅在迭代至某个元素时才计算该元素，而在这之前或之后，元素可以不存在或者被销毁。这个特点使得它特别适合用于遍历一些巨大的或是无限的集合，比如几个G的文件，或是斐波那契数列等等。这个特点被称为延迟计算或惰性求值(L

2015-11-09 15:23:15 527

centos7.6机器上离线安装docker-ce-19.03、nvidia-docker2

C#文件监控源代码 FileEventWatcher

空空如也