2017年05月_sysmedia

09月 06月 05月 04月 03月 02月

转载《推荐系统》基于标签的用户推荐系统

1：联系用户兴趣和物品的方式2：标签系统的典型代表3：用户如何打标签4：基于标签的推荐系统5：算法的改进6：标签推荐源代码查看地址：github查看一：联系用户兴趣和物品的方式推荐系统的目的是联系用户的兴趣和物品，这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。

2017-05-29 11:27:06 13159 1

转载 Spark DataFrame入门教程

DataFrame是Spark推荐的统一结构化数据接口，基于DataFrame快速实现结构化数据的分析，详细使用教程在https://spark.apache.org/docs/latest/sql-programming-guide.html使用创建SparkQL的上下文。from pyspark.sqlimportSQLContextsqlContext = S

2017-05-20 13:29:29 1087

转载 Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入

问题导读1.DataFrame是什么？2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame？4.如何使用DataFrame？5.在1.3.0中，提供了哪些完整的数据写入支持API？自2013年3月面世以来，Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒，继续

2017-05-20 13:28:19 1527 1

转载 Spark2加载保存文件，数据文件转换成数据框dataframe

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao-rw-r--r--

2017-05-20 13:27:20 2005 1

转载如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0：

2017-05-20 13:20:58 3553

转载 RDD,DataFrame与DataSet区别

1.RDD与DataFrame的区别下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。

2017-05-20 12:54:42 734

转载 spark dataframe和dataSet用电影点评数据实战

RDD优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销频繁的创建和销毁对象, 势必会增加GCDataFrameDataFrame引入了sche

2017-05-20 09:49:07 1643 1

转载 Spark商业案例与性能调优实战100课》第2课：商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

Spark商业案例与性能调优实战100课》第2课：商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {def main (args:Array[St

2017-05-20 09:27:43 1233

转载用户体验优化事半功倍：如何绘制客户行为轨迹图

触脉导读：要做有效的客户分析，首先要了解客户行为。客户浏览行为轨迹图就是客户从产生购买意识，直至使用了产品或者服务的全部过程的具体展现。我们可以利用客户行为轨迹数据来了解客户浏览的阶段、细节、客户接触点以及对其进行量化分析，并制定出没一个阶段的度量标准。在研究客户行为轨迹过程中，还可以将整个过程划分为一连串的主要步骤，这样可以让你了解到关于客户行为轨迹的细节信息。接下来要做的就

2017-05-09 10:11:12 8616 2

搜狐DMP依托于搜狐，拥有搜狐网PC端、手机搜狐网、搜狐新闻客户端三端以及搜狐视频、千帆直播、56视频等搜狐旗下全产品矩阵的用户数据，是业内少有的可以覆盖视频、新闻、游戏、直播等多种业务形态的数据管理平台，可以覆盖到90%的中国网民。因而搜狐DMP可以将搜狐所有产品矩阵内的数据打通，将用户在各平台内的行为轨迹进行串联，通过数据管理平台来深入的挖掘，为广告主提供更加完整的行为链分析与更具情境化的用户

2017-05-09 10:06:57 828

转载 spark saveAsTextFile

当我运行完一个Spark程序想把结果保存为saveAsTextFile，结果使用Hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part，好几千个。原因：运行Spark的时候把数据分成了很多份（partition），每个partition都把自己的数据保存在partxxx文件夹。如果想保存为一份的话，就要：先collect 或

2017-05-08 10:45:11 1840 1

转载从零开始，手把手教会你5分钟用SPARK对PM2.5数据进行分析

要从零开始，五分钟做完一个基于SPARK的PM2.5分析项目，你是不是会问1. PM2.5的数据在哪里？2. SPARK的环境哪儿有？3. 程序怎么编？不用急，跟着我做，5分钟就可以从零开始完成所有的事情。准备SPARK环境今天，在各种公有云都可能申请到SPARK的环境。但彻底免费，启动最容易的是在超能云(SuperVessel)上面的SPARK服务，完全免费。

2017-05-07 16:02:30 1906

转载 Spark API 详解/大白话解释之 reduce、reduceByKey

reduce(binary_function) reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。val c = sc.parallelize(1 to 10)c.reduce((x, y) => x + y)//结果551212具体过程，RDD

2017-05-07 15:48:27 2771

转载 spark【例子】count(distinct 字段) 简易版使用groupByKey和zip

例子描述：有个网站访问日志，有4个字段：（用户id，用户名，访问次数，访问网站）需要统计：1.用户的访问总次数去重2.用户一共访问了多少种不同的网站这里用sql很好写select id,name,count(distinct url) from table group by id,name其实这个题目是继官方和各种地方讲解聚合函数（agg

2017-05-07 11:01:33 701

转载 spark【例子】同类合并、计算2

spark【例子】同类合并、计算2例子描述：大概意思为，统计用户使用app的次数排名原始数据：000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E:62:20,15097003,,2016/6/8 17:10,2016/6/8 17:10,690,6218,11=0|12=200,2016/7/5 11:11

2017-05-07 10:20:56 480

转载 spark数据分析之ip归属地查询

前一段时间，在项目中，领导要求实时查看来自各个省份的ip访问的详情，根据这一需求，通过flume/logstack实时采集nginx的日志到生产到kafka，再通过Spark实时消费分析保存到Redis/MySQL中，最后前端通过百度的echart图实时的显示出来。首先，得有一份ip归属地的规则表，可以本地的文档，也可以是分布式的在多台机器上的（如hdfs）。 ip规则表部分如下：1

2017-05-07 10:11:20 2387 4

转载基于spark的精准推荐系统

架构图：

2017-05-07 10:07:38 2192

转载用sparkstreaming按天计算地区销售额简单模版

producer端：import java.util.HashMapimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming._

2017-05-07 10:03:00 843

转载基于Spark实时计算商品关注度

基于Spark实时计算商品关注度一、实验介绍1.1 内容简介处于网络时代的我们，随着 O2O 的营销模式的流行，越来越多的人开始做起了电商。与此同时也产生了许多网络数据，然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次，用户停留时间是多久，用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关

2017-05-07 10:00:19 1467 2

转载 Spark Idea Maven 开发环境搭建

Spark Idea Maven 开发环境搭建一、安装jdkjdk版本最好是1.7以上，设置好环境变量，安装过程，略。二、安装Maven我选择的Maven版本是3.3.3，安装过程，略。编辑Maven安装目录conf/settings.xml文件，?12D:\maven-repository\reposit

2017-05-05 17:50:56 1007

转载基于IntelliJ IDEA开发Spark的Maven项目——Scala语言

基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用，开发Spark项目也不例外，而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目，本文采用的工具是IntelliJ IDEA 2016，IDEA工具越来越被大家认可，开发Java,Python ,sc

2017-05-05 17:44:44 3339

转载 IDEA打包jar包的多种方式

本篇文章总结出用IDEA打包jar包的多种方式。项目打包Jar包可以参考如下形式：用IDEA自带的打包形式；用Maven插件maven-shade-plugin打包；用Maven插件maven-assembly-plugin打包。下面跟着小编一起来看下吧这里总结出用IDEA打包jar包的多种方式，以后的项目打包Jar包可以参考如下形式：用IDEA自带的打包形式用

2017-05-05 17:42:56 11216

原创 Hadoop HA 模式下运行spark 程序

（1）将Hadoop的hdfs-site.xml 和core-site.xml文件复制到spark/conf目录下（2）追加如下内容到 spark-defaults.conf文件spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/

2017-05-04 14:44:36 1012 2

2018年数据可视化的8大趋势

众多机构致力于从位置数据中获得更多真知灼见，并且更清晰地展示它们的研究成果，高质量的数据可视化所带来的价值未来必将持续增加。以下是我们将在2018年持续关注的一些数据可视化的重要趋势。

2018-01-10

带时间的万年自动计算考勤表

带时间的万年自动计算考勤表，可以灵活配置，用于公司考勤

2018-01-10

超全面实用的工资表(自动生成报盘、报税）

超全面实用的工资表(自动生成报盘、报税），可以灵活配置

2018-01-10

elasticsearch集成ik分词器详细文档

elasticsearch集成ik分词器详细文档，包括elasticsearch的应用和部署

2018-01-10

大数据安全实践

大数据安全实践，安全问题背景魅族大数据安全标准体系魅族大数据平台安全架构大数据安全技术

2018-01-10

2017人工智能人才白皮书

全球AI人才发展现状，中国AI人才市场为何一将难求。

2018-01-10

Kafka核心原理与实战（并不是原书，请看描述和评论下载）

Kafka是一个分布式的消息队列系统，消息存储在硬盘上，描述了Kafka原理和安装部署的过程（Kafka核心原理与实战【整理人：北京海子】）

2018-01-10

数据透视表--实例教程

数据透视表--实例教程二，包含教程中用到的数据，便于实践参考

2018-01-09

glpi 资产管理系统

glpi 资产管理系统，采用PHP + MySql，功能强大，部署方便

2017-04-22

小牛OA系统

小牛OA系统，使用php + mysql，快速部署，方便快捷，功能齐全

2017-04-22

Telnet 和 SSH 的区别

介绍了Telnet和SSH的区别，以及SSH1和SSH2的区别，SSH1的缺陷，SSH2的特点

2016-04-28

java_java写XML文件和读取XML文件

java写XML文件和读取XML文件，提供源代码，可以直接使用

2014-09-25

Telnet Server Client 最小化Java实现

一个运用Socket技术的Telnet server 和 Client 的简单实现。

2012-03-29

C语言面试题大汇总C语言,面试题,汇总

C语言面试题大汇总,还有对试题的分析和详细答案

2011-01-04

《开源》200802.pdf

2008-04-08

《开源》200801.pdf

《开源》本着实用的原则，目前划分了七个栏目，第一个栏目是产业聚集，其中包括两块内容，第一是资讯，对于发展得如火如荼的开源领域，一月的时间会发生很多很多的事件，而这个栏目将对一月的新闻有个采集汇总，而第二块内容则是对一些热点事件的深度或持续的关注，或者评论，或者报道，使读者能清晰地理清开源领域发展脉络。 第二个栏目是博客文摘，作为Web 2.0的代表作，博客已经越来越深入得影响了我们的生活，博客开放的思想与开源多少有着一脉相承的味道。这个栏目我们将选取一些开源领域重量级人物的博客，做成文摘的形式，使读者在了解开源动态的前提下，更多地了解到一些前沿的观点。 开源社区是开源的灵魂，这样的观点得到了大家的公认。第三个栏目就将完全关注开源社区，其中会有从社区走出的开源项目的一些最新动态的报道，对于一些优秀的开源项目，也将以科普的形式进行详细的介绍。同时，对于我们开源社区的一些活动，开源社区的一些新技术，来自开源社区的议论都将在这个栏目呈现给大家。 知识学堂这个栏目主要普及开源的知识、文化，以及一些大家都关注的开源应用。以讲座和连载的形式让大家都深入的了解开源文化，对于一些长篇的开源应用讲座，也将在这个栏目进行体现，这类讲座将包括基础的命令讲解到高级的内核解读。 桌面应用将介绍来自桌面的新产品、新工具、新应用，以及各式各样的应用技巧。同时会对桌面软件进行评测和试用报告，刚刚迈进开源应用大门的初学者能从这里获得足够的信心，完全地玩转开源的各种应用。 企业级应用则将推出企业级的新产品、新方案，同时对运用开源软件进行IT环境搭建和运维进行指导，介绍能满足于企业级应用的优秀开源项目，对于复杂IT环境应用中的各种问题也将进行讨论，这个栏目的宗旨一句话可以概括：“自从用了开源企业级软件，我们明显感觉更省钱了。” 混源新视界则是我们推出的一个战略性的栏目，在开源与商业越来越紧密的今天，混源应用得到了广泛的发展。目前的IT环境，很少有纯开源或者纯闭源的软件，开源与传统的商业软件更多的是融合在一起，协同工作。对于混源这个概念，微软也有着自己的解释，那就是异构环境，无论是混源还是异构，毕竟是未来的趋势，趋势性的东西就是值得我们关注的东西，昨天经典的“LAMP”架构到了今天又延伸出了“WAMP”架构，这都是来自混源的魔力，而受益的都是最终用户。 七个栏目组成了我们第一期电子杂志，《开源》这本电子杂志就如同当年那个笨拙的小企鹅，需要更多的人关注和支持，需要更悉心的照料，它才能存活下来，才能健康的成长起来。第一期杂志难免有诸多不尽人意的地方，也希望大家将更多的意见反馈给我们，我们将尽力将这本开源领域惟一的电子杂志办的更好。

2008-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人