自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 腾讯云文字识别API提取表格数据并生成Excel文件

腾讯云文字识别API提取表格数据并生成Excel文件 本文主要介绍了利用腾讯云表格文字识别API提取图片表格数据并生成Excel文件。主要涉及的知识点有:腾讯云API的调用、json文件的处理以及Excel文件的生成。背景在工作中,各种电子文件和纸质文件满天飞,穿梭于各个用户终端之间。有时,我们需要将纸质版数据电子化,往往需要耗费大量的人力,从...

2019-06-14 17:29:00 2879

原创 梯度下降

本文以线性回归为例,讲解了批量梯度下降、随机梯度下降、小批量梯度下降、冲量梯度下降等算法,由浅入深,并结合精心设计的例子,使读者最快掌握这种最常用的优化方法。每一种优化方法,笔者都基于R语言给出了相应的代码,供读者参考,梯度下降假如我们有以下身高和体重的数据,我们希望用身高来预测体重。如果你学过统计,那么很自然地就能想到建立一个线性回归模型:\[y=a+bx\]其中\(a\)...

2018-07-01 19:21:00 570

原创 kmeans聚类

聚类算法介绍k-means算法介绍k-means聚类是最初来自于信号处理的一种矢量量化方法,现被广泛应用于数据挖掘。k-means聚类的目的是将n个观测值划分为k个类,使每个类中的观测值距离该类的中心(类均值)比距离其他类中心都近。k-means聚类的一个最大的问题是计算困难,然而,常用的启发式算法能够很快收敛到局部最优解。这通常与高斯分布的期望最大化算法相似,这两种算法都采用迭代...

2018-06-30 17:59:00 10381

原创 逻辑回归——牛顿法矩阵实现方式

简介逻辑回归常用来处理分类问题,最常用来处理二分类问题。生活中经常遇到具有两种结果的情况(冬天的北京会下雪,或者不会下雪;暗恋的对象也喜欢我,或者不喜欢我;今年的期末考试会挂科,或者不会挂科……)。对于这些二分类结果,我们通常会有一些输入变量,或者是连续性,或者是离散型。那么,我们怎样来对这些数据建立模型并且进行分析呢?我们总是试图来构造一些规则,从我们的输入变量来猜测出二分类的结...

2017-12-25 00:39:00 2276

原创 MapReduce计算线性回归的系数估计值

1. 先修知识设多元线性回归方程的模型为\[Y=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p \]可令\(X_0=1\),则模型可写做:\[Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p \]表示成矩阵形式为:\[Y=\beta X\]其中,\[\beta = \...

2017-12-13 14:16:00 1783

原创 Selenium爬取MOOC网课程信息

近期在写一份关于大数据相关的作业,需要搜索近年来市面上关于大数据的书籍信息和课程信息。其中一位同学负责在当当网上爬取书籍信息,我就负责爬取MOOC网的课程信息。刚开始的时候,以为MOOC网作为一个公益性网站,安全性不会那么高,因此会比较好爬。然而我还是太天真了,网站上一大批JavaScript让我不知所措。好在经过一段时间的探索,终于能够成功爬取了。1. 网站分析打开MOOC官网,...

2017-11-28 20:13:00 1165

原创 Word2Vec-语言模型的前世今生

引言在机器学习领域,语言识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的东西,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。现在,有这么一个有趣的例子,我接下来要讲的模型就可以做到。首先给出一个例子,Paris - France + Americ...

2017-11-27 22:12:00 715

原创 reshape2包使用

 冯洋洋2017年10月31日1.reshape2包简介2.reshape2包中的函数2.1 acast2.2 add_margins2.3 cast2.4 colsplit2.5 dcast2.6 melt2.7 melt.array2.8 mel...

2017-11-09 14:45:00 2482

原创 R语言——绘制甘特图

 今天,在群里看见有人问R能不能绘制甘特图,觉得很有意思 ,就动手试了一下,虽说很丑,但也说明R几乎无所不能。代码如下:GanttChart <- function(program,startdate,enddate,title = NA){ startdate <- as.Date(startdate) enddate...

2017-10-30 14:29:00 2042

原创 淘宝商品列表以及商品详情数据抓取

前段时间老师让我爬取淘宝的商品列表以及其商品详情数据,期间遇到了很多问题。最困难的就是淘宝的价格数据是以Ajax异步加载的,这些数据暂时还没有能力获取到。下面介绍一下基本思路。首先,通过抓取商品列表的商品ID获取商品的身份标识,然后根据商品ID跳转到具体的商品列表,对其他属性进行抓取。观察两条商品列表的URL:https://s.taobao.com/search?q=帽...

2017-08-06 11:14:00 3793

原创 R语言——多重共线性处理

在多元回归分析中已经介绍过,当自变量之间具有显著的相关关系时,可能会存在多重共线性。严重的多重共线性会大大影响模型的预测结果。除了可以用容忍度与方差扩大因子来度量模型的多重共线性以外,还可以用条件数来度量,常用κ表示,条件数可以定义为:,其中,λ为的特征值(X代表自变量矩阵)。一般认为,当κ>15时,有共线性问题,当κ>30时,说明有严重的共线性问题。本文拟采用R...

2017-06-05 18:57:00 44409

原创 R语言——多元线性回归

1、多元线性回归模型1.1多元回归模型与多元回归方程设因变量为y,k个自变量分别为,描述因变量y如何依赖于自变量和误差项ε的方程称为多元回归模型。其一般形式可表示为:式中,为模型的参数,ε为随机误差项。上式表明,y是的线性函数加上随机误差项ε。随机误差项的解释见:随机误差项。与一元线性回归类似,在多元线性回归模型中,对误差项同样有三个基本假设:误差项期望为...

2017-06-05 10:26:00 48874

原创 R语言——一元线性回归


 高尔顿被誉为现代回归的创始人,"回归效应"的发现源于高尔顿的豌豆遗传试验。在这个试验中,高尔顿发现,并非尺寸大的豌豆,其后代尺寸也大,尺寸小的豌豆,其后代尺寸也小。而是具有一种不同的趋势,即尺寸大的豌豆趋向于得到尺寸更小的子代,而尺寸小的豌豆趋向于得到尺寸更大的后代。高尔顿把这一现象称为"返祖",后来又称为"向平均值回归"。"回归效应"的应用非常广泛,生活中随处可...

2017-06-04 15:42:00 17036

原创 R语言——K折交叉验证之随机均分数据集


 今天,在阅读吴喜之教授的《复杂数据统计方法》时,遇到了把一个数据集按照某个因子分成若干子集,再把若干子集随机平均分成n份的问题,吴教授的方法也比较好理解,但是我还是觉得有点繁琐,因此自己编写了一个函数,此后遇到这种问题只需要运行一下函数就可以了。
这里采用R中自带的iris数据集,

> str(iris)
'data...

2017-06-01 23:14:00 3082

原创 R语言——方差分析

一、方差分析的基本概念方差分析是在20世纪20年代发展起来的一种统计方法,它是由英国统计学家费希尔在进行实验设计时为解释实验数据而首先引入的。从形式上看,方差分析是比较多个总体的均值是否相等;但是其本质上是研究变量之间的相互关系。方差分析主要用于研究一个数值因变量与一个或多个分类自变量的关系。根据方差分析的计算方法给方差分析下一个定义:方差分析(analysis of v...

2017-05-22 15:58:00 47965

原创 R语言分词并绘图——以《老人与海》为对象


 > library(tm)> library(tmcn)> library(jiebaR)> library(tau)> library(Rwordseg)> library(wordcloud2)> oldman<-readLines("老人与海.txt",encoding = "UTF-8") #read th

2017-05-21 20:38:00 415

原创 R语言——jiebaR基础

一、jiebaR中的函数介绍(很大一部分参照jiebaR官方文档:qinwenfeng.com/jiebaR/)**No.1**worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, top...

2017-05-21 18:38:00 5165

原创 每日一记

  生活总是那么美好,何不把它记录下来,作为我们的美好回忆。

2017-05-15 17:41:00 141

原创 Hello World


 public class HelloWorld{public static void main(String [] args){System.out.print("hello world");}}












2017-05-10 15:00:00 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除