排序:
默认
按更新时间
按访问量

Java读写大文本文件(2GB以上)

Java读写大文本文件(2GB以上) 如下的程序,将一个行数为fileLines的文本文件平均分为splitNum个小文本文件,其中换行符'r'是linux上的,windows的java换行符是'\r\n': package kddcup2012.task2.FileSystem;...

2017-09-19 14:59:43

阅读数:10007

评论数:0

java读取txt文件乱码解决方案

因为txt默认的选项是ANSI,即GBK编码。GBK和GB2312都是中文编码,在这里解释一下两者的区别。 总体说来,GBK包括所有的汉字,包括简体和繁体。而gb2312则只包括简体汉字。 GBK:   汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Un...

2017-09-19 14:42:52

阅读数:1025

评论数:0

图像对比之PSNR

进行图像对比的两个步骤 1. 两个图像必须是同一尺寸,同一格式的图像文件(BMP 或者 RAW),如果图像尺寸不一样,要把其中一个缩放到同一尺寸。 可以调用opencv的resize函数进行图像缩放。         下载地址:www.opencv.org 2. 进行PSNR计算,...

2017-06-26 11:24:26

阅读数:425

评论数:0

[算法系列之十八]海量数据处理之BitMap

一:简介 所谓的BitMap就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了bit为单位来存储数据,因此在存储空间方面,可以大大节省。 二:基本思想 我们用一个具体的例子来讲解,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这...

2017-06-01 22:43:07

阅读数:347

评论数:0

Bitmap的秘密

之前已经参加过几次QCon峰会,不过今年QCon 2014 上海峰会对我来说比较特别,不再只是一名听众,而是第一次登台演讲。感觉的确不太一样,一来是身份从听众变成了讲师,二来是因为成了讲师,让我接触到更多的业内朋友,也遇到了更多的提问、咨询。会后已经有一段时间了,还有朋友提出想了解更多的技术知识。...

2017-06-01 22:42:27

阅读数:494

评论数:0

携程如何从海量数据中构建精准用户画像?

用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。 作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。本文将从目的,架构、组成等...

2017-06-01 18:31:20

阅读数:1742

评论数:0

大数据用户画像方法与实践(干货 转帖)

在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~ 首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解...

2017-06-01 18:26:51

阅读数:2059

评论数:5

一个Spark推荐系统引擎的实现

第三篇:一个Spark推荐系统引擎的实现 阅读目录 前言第一步:提取有效特征第二步:训练推荐模型第三步:使用ALS推荐模型第四步:物品推荐第五步:推荐效果评估小结 回到顶部 前言        经过2节对MovieLens数据集的学习,想必读者对M...

2017-06-01 18:16:02

阅读数:2831

评论数:0

基于Spark平台的电影推荐系统实现

博主一年前写过一个这样的文章,电影推荐也是博主一年前就学习过的,温故而知新,重新拿出来好好重新研究一番。 这时以前的文章链接:如何使用Spark ALS实现协同过滤http://www.aboutyun.com/forum.php?mod=viewthread&tid=13620(出...

2017-06-01 18:14:13

阅读数:2319

评论数:0

基于Spark Mllib,SparkSQL的电影推荐系统

本文测试的Spark版本是1.3.1 本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累 整个系统的工作流程描述如下:  1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据  2.我...

2017-06-01 18:12:21

阅读数:1123

评论数:0

《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 6:标签推荐 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系...

2017-05-29 11:27:06

阅读数:3189

评论数:0

Spark DataFrame入门教程

DataFrame是Spark推荐的统一结构化数据接口,基于DataFrame快速实现结构化数据的分析,详细使用教程在https://spark.apache.org/docs/latest/sql-programming-guide.html 使用 创建SparkQL的上下文。 ...

2017-05-20 13:29:29

阅读数:646

评论数:0

Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入

问题导读 1.DataFrame是什么? 2.如何创建DataFrame? 3.如何将普通RDD转变为DataFrame? 4.如何使用DataFrame? 5.在1.3.0中,提供了哪些完整的数据写入支持API? 自2013年3月面世以来,Sp...

2017-05-20 13:28:19

阅读数:1099

评论数:1

Spark2加载保存文件,数据文件转换成数据框dataframe

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafile drwxr-xr-x   - wangxiao supergroup          0 ...

2017-05-20 13:27:20

阅读数:1046

评论数:1

如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。 其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为...

2017-05-20 13:20:58

阅读数:1975

评论数:0

RDD,DataFrame与DataSet区别

1.RDD与DataFrame的区别 下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道...

2017-05-20 12:54:42

阅读数:574

评论数:0

spark dataframe和dataSet用电影点评数据实战

RDD 优点: 编译时类型安全  编译时就能检查出类型错误面向对象的编程风格  直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销  无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销  频繁的创建和销...

2017-05-20 09:49:07

阅读数:976

评论数:0

Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析 package com.dt.spark.cores import org.apache.spark.{SparkConf, SparkContext} ob...

2017-05-20 09:27:43

阅读数:738

评论数:0

用户体验优化事半功倍:如何绘制客户行为轨迹图

触脉导读: 要做有效的客户分析,首先要了解客户行为。客户浏览行为轨迹图就是客户从产生购买意识,直至使用了产品或者服务的全部过程的具体展现。 我们可以利用客户行为轨迹数据来了解客户浏览的阶段、细节、客户接触点以及对其进行量化分析,并制定出没一个阶段的度量标准。 在研究客户行为轨迹过程中...

2017-05-09 10:11:12

阅读数:2351

评论数:10

搜狐DMP全线升级 助力广告主锁定精众用户

搜狐DMP依托于搜狐,拥有搜狐网PC端、手机搜狐网、搜狐新闻客户端三端以及搜狐视频、千帆直播、56视频等搜狐旗下全产品矩阵的用户数据,是业内少有的可以覆盖视频、新闻、游戏、直播等多种业务形态的数据管理平台,可以覆盖到90%的中国网民。因而搜狐DMP可以将搜狐所有产品矩阵内的数据打通,将用户在各平台...

2017-05-09 10:06:57

阅读数:566

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭