2015年08月_冥想者-定

转载公司那些事

第一：有问题可以开诚布公的说出来，自己觉得不合理的可以说出来第二：做事情需要认真，不能敷衍了事第三：新的框架需要自己主动的去学习，不能使用原来老的技术去完成，不然不会有进步第四：错误需要举一反三，不然不能解决真真的错误。原来是有一个地方错误，只改一个地方，没有改全局，目前需要修改全局的地方。此：ssxa得到的教训。教育，跟领导的沟通。

2015-08-28 10:45:31 390

转载 Java内存管理和垃圾回收

Java内存管理和垃圾回收笔记，深入理解java虚拟机http://www.cnblogs.com/fxjwind/p/4441799.htmlJava运行时内存区域程序计数器，线程独占，当前线程所执行的字节码的行号指示器，每个线程需要记录下执行到哪儿了，下次调度的时候可以继续执行，这个区是唯一不会发生oom的栈，线程独占，包含虚拟机栈或native m

2015-08-27 18:06:32 351

转载 linux 定时调度的工具

http://www.atool.org/crontab.phphttp://www.atool.org/crontab.php这个网址可以校验值是否正确

2015-08-27 16:19:45 403

转载 Apache Spark 不过时的六大理由

http://www.csdn.net/article/2015-08-26/2825542Apache Spark 不过时的六大理由发表于19小时前| 1236次阅读| 来源CSDN| 2 条评论| 作者Peter Schlampp云计算SparkHadoop摘要：Spark可能并不成熟，但将会持续下去。本文作者Peter Schlampp 是大数

2015-08-27 09:16:21 3060

转载 Math.pow

Math.pow(底数,几次方)如：double a=2.0; double b=3.0;double c=Math.pow(a,b);就是2的三次方是多少；c最终为8；

2015-08-26 15:49:39 685

转载 HDFS——如何将文件从HDFS复制到本地

下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法：Hadoop fs -get [-ignorecrc] [-crc]复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：hadoop fs -get /user/hadoop/file localfilehadoo

2015-08-26 15:32:23 5833

转载如何使用Spark ALS实现协同过滤

http://blog.javachen.com/2015/06/01/how-to-implement-collaborative-filtering-using-spark-als.html本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结，希望对大家熟悉Spark ALS算法有所帮助。更新：【2016.06.12】Spark

2015-08-26 10:20:32 722

转载保安装富二代诈骗30名女子50万主攻大龄单身剩女

“1.82米，高大帅气，制服官员，32岁的单身男。”这样的条件，或许很多女孩都视为理想伴侣。不错!至少30名女孩是这么认为的。近日，重庆市大渡口区警方就抓获一名涉嫌冒充制服官员行骗的男子，超过30名女子被骗近50万元。犯罪嫌疑人究竟是何身份?没钱看病，有钱买苹果手表今年7月，杜女士来到大渡口区春晖路派出所报案，称可能遇到骗子了。原来，她在网上认识一个穿制服的男友，前不久，男友打电话

2015-08-25 15:38:01 1117

转载 RDD

http://blog.csdn.net/wangmuming/article/details/37959963RDD是什么东西？在Spark中有什么作用？如何使用？ 1、RDD是什么（1）为什么会产生RDD？传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方

2015-08-25 11:23:27 407

转载理解Spark的核心RDD

http://www.infoq.com/cn/articles/spark-core-rdd/与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通

2015-08-25 11:22:21 473

转载 HashMap与ConcurrentHashMap的区别

http://blog.csdn.net/xuefeng0707/article/details/40834595从JDK1.2起，就有了HashMap，正如前一篇文章所说，HashMap不是线程安全的，因此多线程操作时需要格外小心。在JDK1.5中，伟大的Doug Lea给我们带来了concurrent包，从此Map也有安全的了。C

2015-08-25 09:32:51 293

转载《深入浅出 Java Concurrency》—并发容器 ConcurrentMap

http://blog.csdn.net/fg2006/article/details/6404226转自：http://www.blogjava.net/xylz/archive/2010/07/19/326527.html这一节开始正式进入并发容器的部分，来看看JDK 6带来了哪些并发容器。在JDK 1.4以下只有Vector和Hashtable是线程安全的集合（也称并

2015-08-25 09:29:36 617

转载 jpa的联合主键，级联操作和延迟加载

http://blog.csdn.net/senssic/article/details/8785100联合主键两个或多个字段组成的主键叫做联合主键在面向对象描述符合主键类的jpa的规范1.必须提供public无参的构造函数2.实现序列化接口（serializable）3.必须重写hashCode()和equals()方法，用符合字段

2015-08-24 14:49:13 733

转载 Java 持久化技术规范（JPA）中的主键生成策略

http://www.ibm.com/developerworks/cn/java/j-lo-jpaprimarykey/Java 持久化技术规范（JPA）中的主键生成策略Java Persistence API（JPA）中要求每个实体（Entity）类必须有一个主键，并且提供了 Table，Sequence，Identity，Auto 四种主键生成策略

2015-08-24 14:48:03 631

转载 jpa 注解 Map

@ElementCollection @MapKeyColumn(name="name") @Column(name="value") @CollectionTable(name="example_attributes", joinColumns=@JoinColumn(name="example_id")) Map attributes = new HashMap

2015-08-24 11:31:57 1772

转载都达到

CREATE TABLE `operator_instances` ( `tracker_uri` varchar(255) collate utf8_bin default NULL, `instance_id` bigint(20) NOT NULL, `action_id` varchar(255) collate utf8_bin NOT NULL, `applic

2015-08-21 17:56:46 351

转载你应该掌握的七种回归技术

http://www.csdn.net/article/2015-08-19/2825492摘要：本文解释了回归分析及其优势，重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素，最后介绍了选择正确的回归模型的关键因素。【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵

2015-08-21 14:25:26 1766

转载 @OneToMany、@ManyToOne以及@ManyToMany讲解（五）

http://my.oschina.net/liangbo/blog/92301一、一对多（@OneToMany）1、单向一对多模型假设通过一个客户实体可以获得多个地址信息。对于一对多的实体关系而言，表结构有两种设计策略，分别是外键关联和表关联。(1) 映射策略---外键关联在数据库中表customer和表结构address定义，如下：?

2015-08-21 14:24:33 418

转载置顶] 主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议，在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型，感觉这个模型的应用挺广泛的，会后抽时间了解了一下LDA，做一下总结：（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少

2015-08-19 20:36:59 466

转载分类与回归区别是什么？

来源知乎http://www.zhihu.com/question/21329754/answer/18004852分类和回归的区别在于输出变量的类型。定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。举个例子：预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。、

2015-08-19 16:43:19 1075

转载我们为什么需要浪漫？

文：任丽丨壹心理专栏作家自有文字记载以来，人类的行为就与浪漫紧密地联系在了一起。《诗经》中，“窈窕淑女，君子好逑”，为我们展现了一幅优美的画卷。浪漫最深层的需求其实是自由，向往自由是人类最原始的本能。从人类集体潜意识层面来讲，历史文化的传承，无论唐诗、宋词、戏曲，还是民乐、西方交响乐，亦或是绘画、雕塑、城市建筑，都能让我们感受到浓浓的浪漫主义情怀。唐代著名的浪漫主义诗人李白，

2015-08-19 16:38:07 627

转载 Spark RDD API详解(一) Map和Reduce

https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要

2015-08-19 13:48:12 418

转载线性回归和logistic回归 (linear regression and logistic regression)

http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/1. 线性回归 1.1 定义给定输入向量，希望预测输出Y。线性回归模型为：其中是截距，是系数，而变量可能来自不同的源（定量输入或者定量输入的变换，多项式表示，变量之间的交互，例如等），但是模型

2015-08-19 13:46:17 1202

转载 new HashMap 发生了什么事情？

Map rm=new HashMap(2)这个2是什么意思？HashMappublic HashMap(int initialCapacity)构造一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap。参数：initialCapacity - 初始容量。抛出： IllegalArgumentException - 如果初始容量为负。

2015-08-19 11:43:02 1708

转载穷忙族健康手册：多瞌睡保护心脏听摇滚做锻炼

在忙碌的生活中拥有一个健康的体魄，并非是一件容易事。繁忙的工作让我们无暇运动，无尽的琐事侵占着我们的休息时间。美国《预防》杂志最新载文称，其实生活中只要注意一些小细节并持之以恒，同样可以收获健康。吃蛋白质预防肥胖。很多人嘴上喊着减肥，现实却没机会行动。对于这些有减肥愿望或是想保持体重的人来说，多吃蛋白质绝对是不增重的“秘密武器”，因为蛋白质能让饱腹感更持久。悉尼大学近期的研究也发现，膳食蛋

2015-08-19 11:11:14 416

转载 Spark 开发指南（版本spark1.1.1）

http://www.aboutyun.com/thread-10531-1-1.html问题导读1.Spark中RDD是什么？2.Spark支持哪两种类型的共享变量？3.如何将一些Spark的类和隐式转换导入到程序中？4.Spark Scala API读取数据，除了支持文本文件，还支持什么格式？5.RDD有哪种操作？6.spark有哪些通用转换和动作？7.

2015-08-19 09:21:55 626

转载 Spark 学习入门教程

转载请注明作者，谢谢支持！http://blog.csdn.net/wankunde/article/details/41675079一、环境准备测试环境使用的cdh提供的quickstart vmhadoop版本：2.5.0-cdh5.2.0spark版本：1.1.0二、Hello Spark将/usr/lib/spark/exampl

2015-08-18 19:57:20 630

转载 [Java教程]RDD专题

RDD是什么东西？在Spark中有什么作用？如何使用？ 1、RDD是什么（1）为什么会产生RDD？传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法（2）RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容

2015-08-18 17:19:29 532

转载在Apache Spark上跑Logistic Regression算法

发表于2015-07-24 10:30| 2604次阅读| 来源TechNobium| 9 条评论| 作者Leonard Giura大数据ApacheSpark摘要：在本文中，你将看到Apache Spark可以用于机器学习的任务，如logistic regression。虽然这只是非分布式的单机环境的Scala shell demo，但是Spark的真正强大在于分布式下的

2015-08-18 14:49:55 1063

原创 spark 官网例子统计一篇文章包含字母a的个数

代码： import org.apache.spark.api.java.*;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;public class SimpleApp { public static void main(String[]

2015-08-18 14:23:58 1588

转载 java Tuple 元组

场景：当在一个方法中，你需要返回几个对象，这几个对象的类型一致，你可以返回一个数组；如果几个对象的类型不同呢，当然你可以返回一个Object[]数组，可是这样在使用结果数组的时候，就需要强转对象的类型，会导致类型不安全；也可以定义一个dto，当多个场景下需要使用的不同，需要定义多个dto，这样会类爆炸，而且重用率极低；在非常接近Java语言的Scala里有元组的定义：val t = (1, 3.

2015-08-18 14:09:26 11425 1

原创我的第一个spark workcount程序

1、建立maven项目pom.xml内容 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.test spark 0.0.1 jar spark http:

2015-08-18 13:58:39 677

转载 git revert和git reset的区别

原文：http://blog.csdn.net/koffuxu/article/details/6731876git revert 是撤销某次操作，此次操作之前的commit都会被保留git reset 是撤销某次提交，但是此次之后的修改都会被退回到暂存区具体一个例子，假设有三个commit， git st:commit3: add test3.ccommit2: add

2015-08-18 10:47:21 345

转载 git revert 用法

分类：项目管理git revert 撤销某次操作，此次操作之前和之后的commit和history都会保留，并且把这次撤销作为一次最新的提交 * git revert HEAD 撤销前一次 commit * git revert HEAD^ 撤销前前一次 commit * git

2015-08-18 10:46:52 419

转载 scala.Enumeration 枚举示例

简介在Scala中并没有枚举类型，但在标准类库中提供了Enumeration类来产出枚举。扩展Enumeration类后，调用Value方法来初始化枚举中的可能值。内部类Value实际上是一个抽象类，真正创建的是Val。因为实际上是Val，所以可以为Value传入id和name如果不指定，id就是在前一个枚举值id上加一，name则是字段名scala枚举示例ob

2015-08-17 19:05:04 7081

转载 linux 查看端口情况

1、、、 netstat -apn | grep 8085 2、、、 ps -ef | grep 10954

2015-08-17 14:22:30 385

转载 Spark MLlib系列(二):基于协同过滤的电影推荐系统

前言随着大数据时代的到来，数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势，使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的，请阅读我的

2015-08-17 13:27:49 1061

转载 Spark MLlib中的协同过滤

本文主要通过Spark官方的例子理解ALS协同过滤算法的原理和编码过程，然后通过对电影进行推荐来熟悉一个完整的推荐过程。协同过滤协同过滤常被应用于推荐系统，旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤，其中用户和商品通过一小组隐语义因子进行表达，并且这些因子也用于预测缺失的元素。Spark MLlib实现了交替最小二乘法(ALS) 来学习这些隐

2015-08-17 09:17:32 931

转载关于机器学习

关于机器学习，个人觉得主要是算法比较多吧。分类，聚类，监督，非监督，关联关系，等等，那些玩意，基本上是一个很大的学科，我做不完啊，目前算法我还是看好推荐系统的。】我们使用工具，还是使用spark吧恩恩，就攻击一个看了很多文章，大同小异看不懂一个，很难理解其他的就看这个吧还有面试问道你如果答的模糊也不行啊，基本上都需要精通的人才，才行的恩

2015-08-14 17:36:01 309

转载 Spark MLlib之协同过滤

什么是协同过滤协同过滤(Collaborative Filtering, 简称CF)，wiki上的定义是：简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯，个人透过合作的机制给予资讯相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选资讯，回应不一定局限于特别感兴趣的，特别不感兴趣资讯的纪录也相当重要。以上定义太拗口，举个简单的例子：我现在多

2015-08-14 16:50:29 642

空空如也

空空如也