素质云笔记/Recorder...

Research Area:计算机视觉舆情 + 知识图谱

python︱Anaconda安装、简介(安装报错问题解决、Jupyter Notebook)

安装完anaconda,就相当于安装了Python、IPython、集成开发环境Spyder、一些包等等。是一个IDE、安装包的大杂烩,很好很强大,官方下载链接:https://www.continuum.io/downloads 下载后,直接安装即可,炒鸡方便。 ———————...

2016-10-26 13:55:38

阅读数 24777

评论数 1

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率。于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求。 data.table可是比dplyr以及Python中的pandas还好用的数据处理方式。 data.table包的语法简洁,并且只需一行代码就可以...

2016-10-24 17:27:55

阅读数 21260

评论数 6

八爪鱼采集器︱爬取外网数据(twitter、facebook)

要想采集海外数据有两种方式:云采集+单机采集。八爪鱼采集器是内嵌的浏览器,是火狐浏览器,不能进行修改。同时也不同通过修改内嵌VPN来获得外网的许可。 若你的某浏览器通过插件可以上外网,能不能用八爪鱼调用,然后上外网呢? 不可以。   1、云采集+外网(八爪鱼服务器) 如果用八爪鱼是爬取外网内容...

2016-10-19 18:51:32

阅读数 9186

评论数 1

八爪鱼采集器︱加载更多、再显示20条图文教程(Xpatth、Ajax)

由于代码布置采集器比较麻烦,又很早知道八爪鱼采集器的强大,所以把一些常规的采集内容贴成图文教程,供以后使用。 八爪鱼采集器官方视频教程见:http://www.bazhuayu.com/tutorial/zxs.aspx?t=0 采集流程: 1、打开网页 2、寻找“加载更多”、“在显示20...

2016-10-19 18:40:19

阅读数 3862

评论数 0

SAS︱操作语句(if、do、select、retain、array)、宏语言、统计量、运算符号

SAS中的一些常见的符号。运算符是一种符号 ①比较算符 ②算术算符 ③逻辑算符 ④其它算符 运算符号 比较算符 含义 #NAME? 等于 ^= 、 NE 不等于 > 、 GT 大于 小于 >= 、 GE 大于等于 小...

2016-10-18 18:01:35

阅读数 11096

评论数 0

SAS︱数据索引、数据集常用操作(set、where、merge、append)

代码部分大多来源于姚志勇老师的《SAS编程与数据挖掘商业案例》。 一、数据索引 数据索引的创建有三种方式:data步骤、sql步骤、datasets步骤。 其中还是有点困惑在data与datasets的区别之上,datasets是对逻辑库中数据集进行操作的方式,而data之后是代表程序的开始。...

2016-10-18 15:06:53

阅读数 7262

评论数 0

SAS学习︱逻辑库、数据集创建与查看、数据库链接(SAS与R的code对照)

入门学习一周,开始写学习笔记。用习惯R之后,发现SAS程序相对python R还是有点繁杂。但是业务需要,不得不学一下。 一、逻辑库、数据集、数据字典 逻辑库=工作空间,存储四类内容,test是数据集文件,views是视图(相当于R里面的views点击查看),formats代表文件,sasma...

2016-10-17 18:00:20

阅读数 4033

评论数 0

SAS随机抽样以及程序初始环境

本来转载于SAS随机抽样 在统计研究中,针对容量无限或者容量很大以至于无法直接对其进行研究的总体,都是通过从中抽取一部分个体作为研究对象,以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程,称为抽样。     抽样包括随机抽样和非随机抽样。非随机抽样是从总体中...

2016-10-17 11:40:10

阅读数 2119

评论数 0

SAS 9.4 的sid问题解决方案汇总(头疼...)

因为经常出现sid出现问题,所以问题很多。最常规的方式就是直接到网上搜索sid直接添加,寻找sid比较好的地方有:经管之家的sas版块 当然如果有sid还是报错,也很经常,一般情况下会修改系统时间。 报错方式 ERROR: WYNEVER FATAL ERROR: WRCODE=fffff...

2016-10-13 18:44:40

阅读数 21451

评论数 2

R︱Softmax Regression建模 (MNIST 手写体识别和文档多分类应用)

本文转载自经管之家论坛, R语言中的Softmax Regression建模 (MNIST 手写体识别和文档多分类应用) R中的softmaxreg包,发自2016-09-09,链接:https://cran.r-project.org/web/packages/softmaxreg/index...

2016-10-12 10:35:09

阅读数 4202

评论数 4

Sparklyr与Docker的推荐系统实战

作者:Harry Zhu 链接:https://zhuanlan.zhihu.com/p/21574497 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 相关内容:  sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spa...

2016-10-07 13:33:03

阅读数 2006

评论数 0

sparklyr包:实现Spark与R的接口+sparklyr 0.5

本文转载于雪晴数据网 日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能: 实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端筛选并聚合Spark数据集,接着在R中实现分析与可视化利用Spark的MLlib机器学习库在R中实现分布式机器学习算法...

2016-10-07 13:24:00

阅读数 5547

评论数 2

转载︱案例 基于贪心算法的特征选择

本文转载于R语言中文社区,详情链接 greedy Algorithm Feature Selection 贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑, 它所做出的是在某种意义上的局部最优解。贪心算法不是对所有问题都能得...

2016-10-07 11:13:38

阅读数 2207

评论数 0

R用户的福音︱TensorFlow:TensorFlow的R接口

TensorFlow TensorFlow™ is an open source software library for numerical computation using data flow graphs. Nodes in the graph represent mathemat...

2016-10-05 11:01:08

阅读数 9202

评论数 0

mxnet:结合R与GPU加速深度学习

转载于统计之都,http://cos.name/tag/dmlc/,作者陈天奇 近年来,深度学习可谓是机器学习方向的明星概念,不同的模型分别在图像处理与自然语言处理等任务中取得了前所未有的好成绩。在实际的应用中,大家除了关心模型的准确度,还常常希望能比较快速地完成模型的训练。一个常用的加速手段...

2016-10-05 10:57:41

阅读数 3756

评论数 0

Caffe、TensorFlow、MXnet三个开源库对比+主流分类模型对比

库名称 开发语言 支持接口 安装难度(ubuntu) 文档风格 示例 支持模型 上手难易 Caffe c++/cuda c++/python/matlab *** * *** CNN ** MXNet c++/cuda python/R/Julia ...

2016-10-02 13:08:22

阅读数 8724

评论数 0

R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)

终于开始攻克并行这一块了,有点小兴奋,来看看网络上R语言并行办法有哪些。 同时并行时对内存的消耗极大,超级容易爆发内存问题,而且R的内存问题一直都是R很难解决的问题,这边笔者也把看到的一些方式列出来。 当然在使用一些高大上的并行包以及框架之前,如果你能够从编码小细节优化,效率也能提高很多...

2016-10-01 22:54:13

阅读数 18570

评论数 1

用GA算法设计22个地点之间最短旅程-R语言实现

数据挖掘入门与实战  公众号: datadw 某毕业班共有30位同学,来自22个地区,我们希望在假期来一次说走就走的旅行,将所有同学的家乡走一遍。算起来,路费是一笔很大的花销,所以希望设计一个旅行方案,确保这一趟走下来的总路程最短。 旅行商问题是一个经典的NP问题 NP就...

2016-10-01 22:51:43

阅读数 2615

评论数 0

提升R代码运算效率的11个实用方法——并行、效率

转载于36大数据,原文作者:Selva Prabhakaran  译者:fibears 众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑...

2016-10-01 22:46:38

阅读数 1276

评论数 0

提示
确定要删除当前文章?
取消 删除