- 博客(9)
- 资源 (7)
- 收藏
- 关注
原创 Spark系列:Spark学习笔记
Spark阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode重要的概念:resilient distributed dataset (RDD), a collection
2016-07-15 15:51:33 3295
原创 推荐系统系列:商品关联分析
商品关联分析关联 relevance: 主要用在互联网的内容和文档上,比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上,比如电子商务网站上的商品之间的关联度。支持度(support):数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B
2016-07-15 15:47:45 14117
原创 python 读文件 写文件 字符串操作 LIBSVM格式数据转换
利用python脚本将数据转换成符合LIBSVM格式的数据#coding=utf-8from sys import argvscript, input, output = argvtxt = open(input,'r')svm_data = open(output,'w')for line in txt.readlines(): features = line.split(',')
2016-07-13 15:14:04 5446
原创 商品关联分析
商品关联分析关联 relevance: 主要用在互联网的内容和文档上,比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上,比如电子商务网站上的商品之间的关联度。支持度(support):数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B
2016-07-12 17:21:45 7445
原创 Hadoop单节点
Hadoop: Setting up a Single Node Cluster[first time] install ssh, rsync注意: 修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh中的JAVA_HOME。这一步很重要,然后启动时会报错。 Unpack the downloaded Hadoop distribution. In the distr
2016-07-15 15:45:30 370
原创 Scala学习笔记
Scala语法函数式,面向对象,JVM val常量 var变量 函数是一等公民 函数可以作为参数传递 表达式没有返回值时,默认返回Unit Unit类型?对应于没有值 借贷模式 按名称传递与按值传递参数 def log(msg: String)vsdef log(msg:=>String) 按名称传递参数可以减少不必要的计算和异常 柯里化(Currying)? def add
2016-07-15 15:43:56 301
原创 Hadoop常用命令及常见问题
Hadoopwinutils.exe in the hadoop binaries Apache 官方发行版的Hadoop的bin目录下没有winutils.exe文件。解决方法:自己在Windows平台上编译或者下载网上别人编译好的Hadoop 2.6.0 Windows 64-bit BinariesHadoop移植到Windows需要做的改变 How To Install Hadoop o
2016-07-15 15:42:05 619
原创 python 文件操作
逐行读取文本文件#coding=utf-8from sys import argvscript, filename = argvtxt = open(filename)for line in txt.readlines(): print line
2016-07-13 14:45:54 365
原创 概率语言模型
LSA(隐性语义分析,Latent Semantic Anaiysis)LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。 VSM将各关键词之间假设为线性无关的这个前提造成VSM模型无法进行语义相关的判断,没有能力处理更复杂的一词多义、一义多词问题。而潜在语义分析(Latent Semantic Anaiysis,LSA)是一种用于自动地实现知识提
2016-07-12 17:14:19 3948
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人