自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 构建Scala的Maven项目

spark的scala项目Maven构建和使用一、使用spark-sql使用spark-sql --master yarn --num-executors 30 --executor-memory 12g二、建立项目1.建立Maven项目:吧java文件夹重命名为scala文件夹2.修改xxx.xml配置3.删除./idea下文件 sca

2016-11-18 14:25:25 1977 1

原创 Java8 lambda的列子

1.这是Java8的另一个重要特性,它与λ表达式的配合使用乃是Java8的最主要特性。集合类的批处理操作API的目的是实现集合类的“内部迭代”,并期望充分利用现代多核CPU进行并行计算。Java8之前集合类的迭代(Iteration)都是外部的,即客户代码。而内部迭代意味着改由Java类库来进行迭代,而不是客户代码。例如:for (Object o : list){ System.ou

2016-11-05 12:08:06 616

原创 python 的pandas DataFrame大全

导言:对python的数据分析包的pandas不可不提,其中数据透视表DataFrame的数据处理能力很是强大;1.导入pandasimport pandas as pdDataFrame = pd.DataFrame2.数据读入data = pd.read_csv(path, sep = '\t', header='infer') 3.常用命令df = DataFram

2016-10-11 13:08:02 1687

原创 java的时间处理

导言:即上一篇文章继续提下java的时间处理类和函数;1.java.util包提供了Date类来封装当前的日期和函数;Date类提供了两个构造函数来实例化Date对象;Date()第二个是构造函数接受一个参数,该参数是从1970年1月1日起的微秒数。Date(long millisec)Date对象创建以后,可以调用下面方法:序号方法和描述1

2016-09-29 14:45:39 395

原创 Java 的时间出来类

导言:在java程序中很多时候需要使用时间处理函数,这里就简单的罗列下时间处理的java类;一、SimpleDataFormatpublic class SimpleDateFormat extends DateFormatSimpleDateFormat 是一个以国别敏感的方式格式化和分析数据的具体类。 它允许格式化 (date -> text)、语法分析 (text -> date)和

2016-09-29 11:17:29 418

原创 Linux命令

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpui

2016-09-27 18:17:59 374

原创 MapReduce 详解一

导言:很多时候数据太大需要并发时候我们要写map reduce 来实现,但mr计算的传入key和value有点疑惑;这里有点让人疑惑为什么要这么写;这是因为与传统的函数不同,一个函数有明确的数据源明确的输入输出。但在mr中除了key、value还有context,这个有点奇妙,这里我们只是定义却没有调用。一、传统开发1.传统定义函数public static class A{

2016-09-26 17:10:05 376

翻译 hive的统计函数

hive函数—-集合统计函数集合统计函数1. 个数统计函数: count语法: count(*), count(expr), count(DISTINCT expr[, expr_.])返回值: int说明: count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;c

2016-09-26 11:22:46 58220 1

翻译 Hadoop上编写mr计算

导言:使用java编写map reduce程序,Map Reduce是包含两个过程:Map过程和Reduce过程。每一个过程都包含键值对作为输入,程序员可以选择键和值的类型。Map和Reduce的数据流是这样的:Input==>Map==>Map Output==>sort and shuffle==>Reduce==>Final Output使用Java编写Hadoop Map Redu

2016-09-25 13:11:08 858

翻译 hive和hadoop的dos操作语句

#创建表人信息表  person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED AS TEXTFILE; OK Time taken: 0.541 second

2016-09-21 18:20:15 437

翻译 hive的数据存储浅谈

一、导言:     Hive是基于Hadoop分布式文件系统,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建标的时候告诉Hive数据中的列分隔和行分隔符,Hive就可以解析数据。所以往hive里导入数据只是简单的将数据移动到表所在的目录中;Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进

2016-09-21 12:58:03 7408

原创 使用maven assembly 对java进行打包

导言:我们一般java工程都是通过Maven来管理构建的,要使用的时候就使用了jar形式,而我们知道其中有很多的依赖,而Maven本身的打包成jar是不包含这些依赖的,我们可以在pom.xml中配置maven-assembly-plugin来实现依赖打包;一、Maven 的maven-assembly-plugin的配置 org.apache.mave

2016-09-20 18:40:20 3130

原创 hadoop的HDFS操作

1.进入服务器ssh -p 2208 haram.shen@x.x.x.x(一些操作可以参见下python的mapreduce的那个项目)2.删除hadoop文件hadoop dfs -rm -r -f /tmp/hx3.输出固定行:hadoop dfs -cat /tmp/hxs/out.txt | head -n 10

2016-09-20 16:57:46 755

原创 CTR预估模型浅谈

导言:一般是从离线数据中学习得到,离线数据是保存在Hive中的,通过机器学习算法将Hive中的数据进行分析,得到一个pCtr模型;对于在线工程而言,实现一个通过配置把离线模型加载进去的在线部分,的确没什么工作量,几行代码;但,要实现一个真正强的在线部分,都要几周时间完成;一、离线部分粗糙版就是python单机就可以步骤:join、norm、binariz

2016-09-20 16:48:00 9627

原创 推荐系统总结

导言:我们做推荐的初衷是解决长尾效应,让那些对于某些人很适合有不经常展示的菜品(餐厅)得到展示,不能推荐的一直都是用户经常点的,热卖的菜品和餐厅,这样的话会陷入死循环,让用户看到的一直都是热卖的热门菜品或餐厅,给其他的商家没有展示的机会,会不利于平台和推荐系统的运行。1.数据的类型1.1)用户行为数据:1)搜索,筛选,收藏,下单,点击,评分 2)负反馈:删除,取消订单,

2016-09-20 16:46:54 2215

原创 线下模型的数据清洗建模

一、清洗流程:目的:为离线训练准备标注数据,清洗不合法的数据。数据源我们采用:曝光、点击、下单1.序列化曝光、点击、下单从Hive表中读取,采用schema可以直接根据日志名字来读取字段在家或减少的影响;曝光日志:存储了用户一次行为的详细信息,包括:包括城市、地理位置、筛选条件及一些行为特征;点击日志主要记录了用户点击的POIID、点击时间;下单日志

2016-09-20 16:42:11 2046

原创 hive 的map reduce的设置

1.set dos.block.size:查看集群设置的文件大小(该参数不能自定义修改)   134217728L(128兆的意思)2.map执行前合并小文件,减少map数   set mapred.max.split.size=100000000;表示100M   set mapred.min.split.size.per.node=100000000

2016-09-20 16:15:33 1269

原创 IDEAL Ultimate 的SVN导入

一拉取svn项目方法一:使用ideal自带的Terminal使用svn cosvn://x.x.171.10/svnproject拉取svn目录方法二:使用ideal自带的插件SubVersion添加svn路径地址svn://x.x.171.10/svnproject 自动拉取在某个目录下/User/Desktop/svnproject二、拉取的

2016-09-19 14:25:51 624

原创 scala 学习笔记(八)

函数和闭包当程序变得庞大时,你需要一些方法把它们分割成更小的,更易管理的片段。为了分割控制流,Scala提供了所有有经验的程序员都熟悉的方式:把代码分割成函数。 实际上,Scala提供了许多Java中没有的定义函数的方式。除了作为对象成员函数的方法之外,还有内嵌在函数中的函数,函数文本和函数值。本章带你体会所有Scala 中的这些

2016-09-13 16:39:23 347

原创 scala学习笔记(七)

内建控制结构1.嵌套枚举如果加入多个子句,你就得到了嵌套的“循环”。 如果愿意的话,你可以使用大括号代替小括号环绕发生器和过滤器。使用大括号的一个好处是你可以省略一些使用小括号必须加的分号。外层的循环枚举 filesHere,内层的枚举所有以.scala结尾文件的 fileLines(file)。  def

2016-09-13 15:45:11 413

原创 Scala学习笔记(六)

函数式对象本章的重点在于定义函数式对象,也就是说,没有任何可变状态的对象的类。作为运行的例子,我们将创造若干把分数作为不可变对象建模的类的变体。在这过程中,我们会展示给你Scala 面向对象编程的更多方面:类参数和构造函数,方法和操作符,私有成员,子类方法重载,先决条件检查,同类方法重载和自指向。 1.类Rational的式样书分

2016-09-13 13:32:06 235

原创 Scala学习笔记(五)

基本类型和操作1.基本类型数值型范围Short16 位有符号补码整数(-215~215-1 Int32 位有符号补码整数(-231~231-1) Lon

2016-09-13 12:12:17 356

原创 Scala学习笔记(四)

类和对象你熟悉 Java,你会发现Scala 里的概念相似,但不完全相同。所以即使你是一位 Java 大师,读一下本章也是有益的。 1.类字段和方法类是对象的蓝图,有了类,你可以使用关键字new从类的蓝图里创建对象。比如给出类的定义:class ChecksumAccumulator{ //class definition goe

2016-09-12 18:30:26 300

翻译 scala 学习笔记(三)

scala进一步学习1.带类型的参数化数组scala可以使用new实例化对象或者实例。当你在scala里实例化对象,可以使用值和类型把他参数化。参数化意思就是创建实例时候“设置”它。通过把加在括号里的对象传递给实例的构造器的方式来使用值参数化实例。如:scala里实例化一个新的java.math.BigInteger并使用值"123456"参数化val big = new java

2016-09-12 13:08:51 832

原创 scala 学习笔记(二)

1.启动Scala输入scala> 1+ 2rest0:Int = 3这行代码会打印:rest0:Int = 3退出scala:quit2.这行代码包括:1)一个自动产生的或用户自定义的名称来说明计算的值(rest0,结果0)2)冒号(:),跟着表达式的类型(Int)Int类型是Scala包类的Int。Scala里的包与Java里的包很相似:他们把全局命名空间

2016-09-12 10:55:54 317

原创 Scala 学习笔记(一)

Scala语言的名称来自于“可伸展的语言”。之所以这样命名,是因为他被设计成随着使用者的需求而成长。你可以把Scala应用在很大范围的编程任务上,从写个小脚本到建立个大系统。 Scala是很容易进入的语言。它跑在标准的 Java平台上,可以与所有的 Java库实现无缝交互。它也是用来编写脚本把 Java 控件链在一起的很好的语言。但是用它来建立大系统和可重用控件的架构将更能够发挥它

2016-09-11 16:32:29 413

原创 scp:Mac使用方法(文件上传与下载服务器)

scp是linux系统下基于ssh登陆进行安全的远程文件拷贝命令。scp命令可以在linux服务器之间复制文件和目录.scp使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。     从一个linux系统中上传,下载文件或目录时,用的最多的是ftp,用ftp的话,要登录,登录后要进行目录的切换,在get和put,感觉挺麻烦的,

2016-09-05 08:45:52 14402

原创 IDEAL Ultimate 版 激活码 说明本文使用是Version: 2016.2.3

IDEAL商业版激活码说明本文使用是Version: 2016.2.343B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdG

2016-09-05 08:34:35 4104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除