自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

智慧与美貌并存

丁丁是也

  • 博客(30)
  • 收藏
  • 关注

转载 推荐系统-文本相似性计算(3)

前面说了两篇了,分别介绍了TFIDF和向量空间的相关东西,然后介绍了主题模型,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。0. 工具准备工欲善其事,必先利其器,那么我们先来利其器,这里我们使用的是python的gensim工具包,地址是:https://radimrehurek.com/gensim/index.ht

2016-06-29 23:46:24 5425 1

转载 推荐系统-文本相似性计算(2)

上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的层次上来,正因为这样才有了自然语言处理这门课程了。今天我们稍微说说这个吧,后台留言很多朋友对这方面感兴趣,因为自然语言处理实在不是一篇文章就能说清的,而且我水平也非常有限,我本身是个工程人员,自然语言处理这么高

2016-06-29 23:44:27 1504

转载 推荐系统-文本相似性计算(1)

1. 前言推荐系统分为两种,一种是基于用户的,根据某个用户的特性推荐一些东西,还有一种是根据内容,推荐一些相似的内容,或者是两种的结合,任何推荐系统,仔细分析下来,都属于这两种情况的组合。今天我们说一下基于内容推荐中的一个分支,也是使用得比较多的内容推荐方式,那就是基于文本相似性的推荐,我们说文本相似性的计算,文本相似性应用范围是比较广的:普通的阅读文章,底下的相关文章

2016-06-29 23:36:04 3512

转载 R语言-回归分析及实现

一、数据探索阶段1、了解变量类型做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。r代码:> class(mydata$Middle_Price)[1] "numeric"> class(mydata$MPG.city.)[1] "factor"另外我们利用factor函数对各水平进行赋值:status这样将1=poor

2016-06-29 00:18:53 21930 2

转载 量化-使用python计算各类移动平均线

计算移动平均线是最常见的需求,下面这段代码将完成以下三件事情:1. 从csv格式的文件中导入股票数据,数据例图如下:2.计算各类移动平均线,包括简单简单算术移动平均线MA、指数平滑移动平均线EMA;3.将计算好的数据输出到csv文件中。代码应该复制下来就能运行了,关于从哪里可以得到代码中使用的数据,后面会讲,下面贴上代码(附件中也可以下载):--

2016-06-29 00:05:18 54310 4

转载 量化-windows下如何安装Python、pandas

本篇内容主要讲如何安装Python和pandas。Python比较好安装,而pandas比较难装,当时装了我一整天。pandas是Python下面的一个package,专门用于金融数据的分析,简直是神器。这里有pandas的简单入门介绍http://pandas.pydata.org/pandas-docs/stable/10min.html本篇主要涵盖以下三部分内容:1.Python

2016-06-28 23:59:30 9440 1

转载 R语言-简单多元回归

1.读入数据,R-STUDIO直接有按钮,否则就> zsj 数据一般从excel的CSV或者txt里读取,实现整理好以符合R的数据框的结构ps1:这块有很多包提供从不同来源读取数据的方法,笔者还得慢慢学。。2.画相关图选择回归方程的形式> plot(Y~X1);abline(lm(Y~X1))> plot(Y~X2);abline(lm(Y~X2))

2016-06-28 23:32:16 3909

转载 hive-分析函数

分析函数是什么?分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值。 分析函数和聚合函数的不同之处是什么?普通的聚合函数用group by分组,每个分组返回一个统计值,而分析函数采用partition by分组,并且每组每行都可以返回一个统计值。 分析函数的形式分析

2016-06-28 09:13:37 2065

转载 R应用-多元线性回归

#准备好数据,看看pv与uv、cindex、hsindex之间的关系fhead(f)    pv   uv cindex hsindex1 5531 3279   1458    22962 6439 4070   1425    22803 5404 3253   1477    22914 6121 4137   1458    22865 6654 453

2016-06-28 09:09:15 838

转载 应用层-个性化推荐系统基本概念及5种常规算法初探

1. 什么是推荐系统?推荐系统是什么?如果你是个多年电商(剁手)党,你会说是这个:如果你是名充满文艺细胞的音乐发烧友,你会答这个:如果你是位活跃在各大社交平台的点赞狂魔,你会答这个:没错,猜你喜欢、个性歌单、热点微博,这些都是推荐系统的输出内容。从这些我们就可以总结出,推荐系统到底是做什

2016-06-24 00:08:58 1705

原创 R语言-ggplot基础性操作

---------画散点图p          aes(x =持仓品种数, y = 年化收益率))   ###选取字段+geom_point(aes(color = factor(年化收益率分类)),size=2)###修改颜色,按照类来区分+labs(title="年化收益率与参与品种数量") ###图表标题+theme(plot.title= element_text(

2016-06-21 23:24:49 1180

原创 R语言-ggplot2柱状堆叠图

###导入数据load("D:\\R\\futures_user_2.dat")####提取需要画图的数据a=futures_user_2[,c(1,2,5)]####对部分错误的数据进行修改a$province[which(a$province=="广西桂林")]######去除空置和nullb=a[-which(is.na(a$province)),

2016-06-21 23:13:59 38650

转载 R语言-日期与时间格式

R语言是开源的,同时可以运行在各种平台上(Linux、Windows、MacOS等)。R的许多软件包是由R语言、 LaTeX、Java及最常用C语言和Fortran撰写。本篇为大家介绍的是R语言日期格式数据。#日期型数据在R中自带的日期形式为:as.Date();以数值形式存储;对于规则的格式,则不需要用format指定格式;如果输入的格式不规则,可以通过format指定的格式

2016-06-19 00:21:44 15352

转载 R语言-逻辑操作

R语言的逻辑操作包括以下几项: !     取非如:> x > !x输出结果为: FALSE如:> x > !x输出结果为:F,F,T,F,T &  和 &&这两者都是逻辑与,操作都是x&y和x&&y如:> x > y > x&&y[1] FALSE> x&y[1] FALSE  TRUE FALSE可以看到,&是

2016-06-19 00:12:41 1261

转载 R语言-时间序列的创建及时间序列模型

R语言中时间序列的内容主要有:时间序列的创建,ARMA模型的建立与自相关和偏自相关函数。一、  时间序列的创建时间序列的创建函数为:ts().函数的参数列表如下:ts(data = NA, start = 1, end = numeric(),frequency = 1,  deltat = 1, ts.eps = getOption("ts.eps"), class = , na

2016-06-18 14:42:59 9563

转载 R语言-时间序列函数整理

【包】library(zoo)            #时间格式预处理library(xts)            #同上library(timeSeires)      #同上library(urca)           #进行单位根检验library(tseries)         #arma模型library(fUnitRoots)     #进行单位根检验

2016-06-18 14:38:58 11773

转载 R语言-因子和有序因子

因子(factor)和有序因子(ordered factor)因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或者计数。因子表示分类变量,有序因子表示有序变量。生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,

2016-06-18 12:50:38 1239

转载 R语言-数据处理包 dplyr

一、安装install.packages("dplyr")二、案例分析与应用1. 数据准备library(Lahman): Lahman 包里的棒球比赛数据集 Battinglibrary(hflights): hflights 包里的飞机航班数据0.3 数据集类型将过长过大的数据集转换为显示更友好的 tbl_df 类型:hflights_df 2.

2016-06-18 12:47:41 983

转载 京东基于Spark的风控系统架构实践和技术细节

1.背景互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不法分子对互联网资产的觊觎,针对电商行业的恶意行为也愈演愈烈,这其中,最典型的就是黄牛抢单囤货和商家恶意刷单。黄牛囤货让广大正常用户失去了商家给予的优惠让利;而商家

2016-06-11 16:08:20 4577

转载 R语言-kmeans聚类理论篇K的选择(轮廓系数)

kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理kmeans的计算方法如下:1 随机选取k个中心

2016-06-11 15:59:21 21236 1

转载 R语言-入门综合

I. 导论简单来讲,编程是借助计算机来解决某个问题。学习编程的就是训练我们解决问题的能力。有这样一种说法:在未来,不会编程的人即是文盲。1 为什么要学习R编程大部分情况下解决某些问题还需要依赖一些事实或数据,结合数据分析的框架和计算工具来帮助我们决策和判断。这时候R语言编程就会派上用场。例如从大的方面来看,投资方要决定在何处建立风力发电场,就需要采集天气数据加以建模分析

2016-06-08 00:24:01 1876

转载 R语言-因子和有序因子

因子(factor)和有序因子(ordered factor)因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或者计数。因子表示分类变量,有序因子表示有序变量。生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,

2016-06-08 00:10:31 1413

转载 R语言-数据处理包 dplyr

数据挖掘,更多的需要花70%以上的时间在数据处理上,所以一些好用的数据处理包会提供很大的方便,也是之前在edx上学Statistic and R for the life Sciences 这门课时候,老师推荐的,感觉很好用的,整理了这个很实用的包的资料。一、安装install.packages("dplyr")二、案例分析与应用1. 数据准备library(Lah

2016-06-07 23:52:29 1439

转载 R语言-设置镜像

local({r r["CRAN"] options(repos=r)})install.packages("stringr")library(arulesSequences)备用镜像:http://mirror.bjtu.edu.cn/cran/http://mirrors.ustc.edu.cn/CRAN/http://mir

2016-06-07 23:39:26 12705

转载 R语言-时间函数

(1)获取当前日期有两个函数 一个是Sys.Date(),另外一个是Sys.time(),获得向前向后的时间 t<-Sys.time() t [1] "2015-09-22 18:53:56 CST" t是一种长整形的数据自1970-01-01年开始,用unclass()函数得到,时间单位是秒 > unclass(t) [1] 1442919

2016-06-07 23:19:27 14184

转载 R语言-merge与subset 的使用

---------------merge与subset 的使用merge函数对数据框的操作,从两个数据框中选择出条件相等的行组合成一个新的数据框> df1=data.frame(name=c("aa","bb","cc"),age=c(20,29,30),sex=c("f","m","f"))> df2=data.frame(name=c("dd","bb","cc"),age=c(40

2016-06-07 21:32:28 8080

转载 解决【Windows Management Instrumentation(WMI)信息可能损坏】

近期在部分开启共享失败的用户电脑上见到此问题——在查看“本地连接”或“宽带连接”的属性选项卡时,切换到“高级”选项卡后出现以下错误:Windows 不能显示此连接的属性。Windows Management Instrumentation(Windows管理体系结构组件WMI)信息可能损坏。要更正此问题,请使用系统还原将Windows 还原到一个较早的时间点(称为还原点)。系统还原在“附件

2016-06-06 23:52:47 12516

转载 R语言-循环与条件

循环for (n in x) {expr}R中最基本的是for循环,其中n为循环变量,x通常是一个序列。n在每次循环时从x中顺序取值,代入到后面的expr语句中进行运算。下面的例子即是以for循环计算30个Fibonacci数。x for (i in 3:30) {    x }while (condition) {expr}当不能确定循环次数时,我们需要用

2016-06-03 00:01:53 29030

转载 R语言-向量化操作(apply、tapply、lapply、sapply、mapply、table等)

apply函数(对一个数组按行或者按列进行计算): 使用格式为:apply(X, MARGIN, FUN, ...)其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma > ma     [,1] [,2] [,3] [,4][1,]

2016-06-02 23:47:22 52026

转载 sparkR介绍及安装

SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD元素的运算。[Bash shell] 纯文本查看 复制代码

2016-06-02 23:25:42 1181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除