2016年06月_小丁丁_ddxdd

转载推荐系统-文本相似性计算（3）

前面说了两篇了，分别介绍了TFIDF和向量空间的相关东西，然后介绍了主题模型，这一篇我们就来试试这两个东西。词向量就不在这篇试了，词向量和这两个关系不大，不好对比，不过我最后也给出了代码。0. 工具准备工欲善其事,必先利其器，那么我们先来利其器，这里我们使用的是python的gensim工具包，地址是:https://radimrehurek.com/gensim/index.ht

2016-06-29 23:46:24 5425 1

上一篇中我们的小明已经中学毕业了，今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量，并没有任何上下文的关系，所以思想还停留在机器层面，还没有到更高的层次上来，正因为这样才有了自然语言处理这门课程了。今天我们稍微说说这个吧，后台留言很多朋友对这方面感兴趣，因为自然语言处理实在不是一篇文章就能说清的，而且我水平也非常有限，我本身是个工程人员，自然语言处理这么高

2016-06-29 23:44:27 1504

转载推荐系统-文本相似性计算（1）

1. 前言推荐系统分为两种，一种是基于用户的，根据某个用户的特性推荐一些东西，还有一种是根据内容，推荐一些相似的内容，或者是两种的结合，任何推荐系统，仔细分析下来，都属于这两种情况的组合。今天我们说一下基于内容推荐中的一个分支，也是使用得比较多的内容推荐方式，那就是基于文本相似性的推荐，我们说文本相似性的计算，文本相似性应用范围是比较广的：普通的阅读文章，底下的相关文章

2016-06-29 23:36:04 3512

转载 R语言-回归分析及实现

一、数据探索阶段1、了解变量类型做回归分析前，了解数据集是怎样的？那些是数值型变量，那些是分类变量，这一步是相当重要的。r代码：> class(mydata$Middle_Price)[1] "numeric"> class(mydata$MPG.city.)[1] "factor"另外我们利用factor函数对各水平进行赋值：status这样将1=poor

2016-06-29 00:18:53 21930 2

转载量化-使用python计算各类移动平均线

计算移动平均线是最常见的需求，下面这段代码将完成以下三件事情：1. 从csv格式的文件中导入股票数据，数据例图如下：2.计算各类移动平均线，包括简单简单算术移动平均线MA、指数平滑移动平均线EMA；3.将计算好的数据输出到csv文件中。代码应该复制下来就能运行了，关于从哪里可以得到代码中使用的数据，后面会讲，下面贴上代码（附件中也可以下载）：--

2016-06-29 00:05:18 54310 4

转载量化-windows下如何安装Python、pandas

本篇内容主要讲如何安装Python和pandas。Python比较好安装，而pandas比较难装，当时装了我一整天。pandas是Python下面的一个package，专门用于金融数据的分析，简直是神器。这里有pandas的简单入门介绍http://pandas.pydata.org/pandas-docs/stable/10min.html本篇主要涵盖以下三部分内容：1.Python

2016-06-28 23:59:30 9440 1

转载 R语言-简单多元回归

1.读入数据，R-STUDIO直接有按钮，否则就> zsj 数据一般从excel的CSV或者txt里读取，实现整理好以符合R的数据框的结构ps1：这块有很多包提供从不同来源读取数据的方法，笔者还得慢慢学。。2.画相关图选择回归方程的形式> plot(Y~X1);abline(lm(Y~X1))> plot(Y~X2);abline(lm(Y~X2))

2016-06-28 23:32:16 3909

转载 hive-分析函数

分析函数是什么？分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数，它可以在数据中进行分组然后计算基于组的某种统计值，并且每一组的每一行都可以返回一个统计值。分析函数和聚合函数的不同之处是什么？普通的聚合函数用group by分组，每个分组返回一个统计值，而分析函数采用partition by分组，并且每组每行都可以返回一个统计值。分析函数的形式分析

2016-06-28 09:13:37 2065

转载 R应用-多元线性回归

#准备好数据，看看pv与uv、cindex、hsindex之间的关系fhead(f) pv uv cindex hsindex1 5531 3279 1458 22962 6439 4070 1425 22803 5404 3253 1477 22914 6121 4137 1458 22865 6654 453

2016-06-28 09:09:15 838

转载应用层-个性化推荐系统基本概念及5种常规算法初探

1. 什么是推荐系统？推荐系统是什么？如果你是个多年电商（剁手）党，你会说是这个：如果你是名充满文艺细胞的音乐发烧友，你会答这个：如果你是位活跃在各大社交平台的点赞狂魔，你会答这个：没错，猜你喜欢、个性歌单、热点微博，这些都是推荐系统的输出内容。从这些我们就可以总结出，推荐系统到底是做什

2016-06-24 00:08:58 1705

原创 R语言-ggplot基础性操作

---------画散点图p aes(x =持仓品种数, y = 年化收益率)) ###选取字段+geom_point(aes(color = factor(年化收益率分类)),size=2)###修改颜色，按照类来区分+labs(title="年化收益率与参与品种数量") ###图表标题+theme(plot.title= element_text(

2016-06-21 23:24:49 1180

原创 R语言-ggplot2柱状堆叠图

###导入数据load("D:\\R\\futures_user_2.dat")####提取需要画图的数据a=futures_user_2[,c(1,2,5)]####对部分错误的数据进行修改a$province[which(a$province=="广西桂林")]######去除空置和nullb=a[-which(is.na(a$province)),

2016-06-21 23:13:59 38650

转载 R语言-日期与时间格式

R语言是开源的，同时可以运行在各种平台上（Linux、Windows、MacOS等）。R的许多软件包是由R语言、 LaTeX、Java及最常用C语言和Fortran撰写。本篇为大家介绍的是R语言日期格式数据。#日期型数据在R中自带的日期形式为：as.Date();以数值形式存储；对于规则的格式，则不需要用format指定格式；如果输入的格式不规则，可以通过format指定的格式

2016-06-19 00:21:44 15352

转载 R语言-逻辑操作

R语言的逻辑操作包括以下几项： ! 取非如：> x > !x输出结果为： FALSE如：> x > !x输出结果为：F,F,T,F,T & 和 &&这两者都是逻辑与，操作都是x&y和x&&y如：> x > y > x&&y[1] FALSE> x&y[1] FALSE TRUE FALSE可以看到，&是

2016-06-19 00:12:41 1261

转载 R语言-时间序列的创建及时间序列模型

R语言中时间序列的内容主要有：时间序列的创建，ARMA模型的建立与自相关和偏自相关函数。一、时间序列的创建时间序列的创建函数为：ts().函数的参数列表如下：ts(data = NA, start = 1, end = numeric(),frequency = 1, deltat = 1, ts.eps = getOption("ts.eps"), class = , na

2016-06-18 14:42:59 9563

转载 R语言-时间序列函数整理

【包】library(zoo) #时间格式预处理library(xts) #同上library(timeSeires) #同上library(urca) #进行单位根检验library(tseries) #arma模型library(fUnitRoots) #进行单位根检验

2016-06-18 14:38:58 11773

转载 R语言-因子和有序因子

因子(factor)和有序因子(ordered factor)因子用来存储类别变量(categorical variables)和有序变量，这类变量不能用来计算而只能用来分类或者计数。因子表示分类变量，有序因子表示有序变量。生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...)，其中data是数据，levels是因子水平向量，

2016-06-18 12:50:38 1239

转载 R语言-数据处理包 dplyr

一、安装install.packages("dplyr")二、案例分析与应用1. 数据准备library(Lahman): Lahman 包里的棒球比赛数据集 Battinglibrary(hflights): hflights 包里的飞机航班数据0.3 数据集类型将过长过大的数据集转换为显示更友好的 tbl_df 类型:hflights_df 2.

2016-06-18 12:47:41 983

转载京东基于Spark的风控系统架构实践和技术细节

1.背景互联网的迅速发展，为电子商务兴起提供了肥沃的土壤。2014年，中国电子商务市场交易规模达到13.4万亿元，同比增长31.4%。其中，B2B电子商务市场交易额达到10万亿元，同比增长21.9%。这一连串高速增长的数字背后，不法分子对互联网资产的觊觎，针对电商行业的恶意行为也愈演愈烈，这其中，最典型的就是黄牛抢单囤货和商家恶意刷单。黄牛囤货让广大正常用户失去了商家给予的优惠让利；而商家

2016-06-11 16:08:20 4577

转载 R语言-kmeans聚类理论篇K的选择（轮廓系数）

kmeans是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。本文记录学习kmeans算法相关的内容，包括算法原理，收敛性，效果评估聚，最后带上R语言的例子，作为备忘。算法原理kmeans的计算方法如下：1 随机选取k个中心

2016-06-11 15:59:21 21236 1

转载 R语言-入门综合

I. 导论简单来讲，编程是借助计算机来解决某个问题。学习编程的就是训练我们解决问题的能力。有这样一种说法：在未来，不会编程的人即是文盲。1 为什么要学习R编程大部分情况下解决某些问题还需要依赖一些事实或数据，结合数据分析的框架和计算工具来帮助我们决策和判断。这时候R语言编程就会派上用场。例如从大的方面来看，投资方要决定在何处建立风力发电场，就需要采集天气数据加以建模分析

2016-06-08 00:24:01 1876

转载 R语言-因子和有序因子

因子(factor)和有序因子(ordered factor)因子用来存储类别变量(categorical variables)和有序变量，这类变量不能用来计算而只能用来分类或者计数。因子表示分类变量，有序因子表示有序变量。生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...)，其中data是数据，levels是因子水平向量，

2016-06-08 00:10:31 1413

转载 R语言-数据处理包 dplyr

数据挖掘，更多的需要花70%以上的时间在数据处理上，所以一些好用的数据处理包会提供很大的方便，也是之前在edx上学Statistic and R for the life Sciences 这门课时候，老师推荐的，感觉很好用的，整理了这个很实用的包的资料。一、安装install.packages("dplyr")二、案例分析与应用1. 数据准备library(Lah

2016-06-07 23:52:29 1439

转载 R语言-设置镜像

local({r r["CRAN"] options(repos=r)})install.packages("stringr")library(arulesSequences)备用镜像：http://mirror.bjtu.edu.cn/cran/http://mirrors.ustc.edu.cn/CRAN/http://mir

2016-06-07 23:39:26 12705

转载 R语言-时间函数

(1)获取当前日期有两个函数一个是Sys.Date()，另外一个是Sys.time(),获得向前向后的时间 t<-Sys.time() t [1] "2015-09-22 18:53:56 CST" t是一种长整形的数据自1970-01-01年开始，用unclass()函数得到，时间单位是秒 > unclass(t) [1] 1442919

2016-06-07 23:19:27 14184

转载 R语言-merge与subset 的使用

---------------merge与subset 的使用merge函数对数据框的操作，从两个数据框中选择出条件相等的行组合成一个新的数据框> df1=data.frame(name=c("aa","bb","cc"),age=c(20,29,30),sex=c("f","m","f"))> df2=data.frame(name=c("dd","bb","cc"),age=c(40

2016-06-07 21:32:28 8080

转载解决【Windows Management Instrumentation（WMI）信息可能损坏】

近期在部分开启共享失败的用户电脑上见到此问题——在查看“本地连接”或“宽带连接”的属性选项卡时，切换到“高级”选项卡后出现以下错误：Windows 不能显示此连接的属性。Windows Management Instrumentation（Windows管理体系结构组件WMI）信息可能损坏。要更正此问题，请使用系统还原将Windows 还原到一个较早的时间点（称为还原点）。系统还原在“附件

2016-06-06 23:52:47 12516

转载 R语言-循环与条件

循环for (n in x) ｛expr}R中最基本的是for循环，其中n为循环变量，x通常是一个序列。n在每次循环时从x中顺序取值，代入到后面的expr语句中进行运算。下面的例子即是以for循环计算30个Fibonacci数。x for (i in 3:30) { x }while (condition) {expr}当不能确定循环次数时，我们需要用

2016-06-03 00:01:53 29030

转载 R语言-向量化操作（apply、tapply、lapply、sapply、mapply、table等）

apply函数（对一个数组按行或者按列进行计算）：使用格式为：apply(X, MARGIN, FUN, ...)其中X为一个数组；MARGIN为一个向量（表示要将函数FUN应用到X的行还是列），若为1表示取行，为2表示取列，为c(1,2)表示行、列都计算。示例代码：> ma > ma [,1] [,2] [,3] [,4][1,]

2016-06-02 23:47:22 52026

转载 sparkR介绍及安装

SparkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。例如，我们可以在HDFS上读取或写入文件，也可以使用 lapply 来定义对应每一个RDD元素的运算。[Bash shell] 纯文本查看复制代码

2016-06-02 23:25:42 1181

智慧与美貌并存

转载推荐系统-文本相似性计算（3）

转载推荐系统-文本相似性计算（2）

转载推荐系统-文本相似性计算（1）

转载 R语言-回归分析及实现

转载量化-使用python计算各类移动平均线

转载量化-windows下如何安装Python、pandas

转载 R语言-简单多元回归

转载 hive-分析函数

转载 R应用-多元线性回归

转载应用层-个性化推荐系统基本概念及5种常规算法初探

原创 R语言-ggplot基础性操作

原创 R语言-ggplot2柱状堆叠图

转载 R语言-日期与时间格式

转载 R语言-逻辑操作

转载 R语言-时间序列的创建及时间序列模型

转载 R语言-时间序列函数整理

转载 R语言-因子和有序因子

转载 R语言-数据处理包 dplyr

转载京东基于Spark的风控系统架构实践和技术细节

转载 R语言-kmeans聚类理论篇K的选择（轮廓系数）

转载 R语言-入门综合

转载 R语言-因子和有序因子

转载 R语言-数据处理包 dplyr

转载 R语言-设置镜像

转载 R语言-时间函数

转载 R语言-merge与subset 的使用

转载解决【Windows Management Instrumentation（WMI）信息可能损坏】

转载 R语言-循环与条件

转载 R语言-向量化操作（apply、tapply、lapply、sapply、mapply、table等）

转载 sparkR介绍及安装

空空如也

空空如也