自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Selenium环境配置

官网下载Selenium最新版本目前更新至3.7.1版,本地存放路径为D:\R\library\Rwebdriver\,名称为selenium-server-standalone-[version.number].jar,即selenium-server-standalone-3.7.1 运行Selenium需要搭建Java环境JDK(Java SE Development ...

2019-06-16 13:29:25 2782 1

原创 Python绘制饼状图/甜甜圈

Python Matplotlib.pyplotMatplotlib库是一个面向对象的绘图库。绘图界面由pyplot模块提供。该模块提供了许多绘图函数,以下记录的是饼状图/甜甜圈图的相关参数和绘图过程,官方资料详见文末链接。# 导入相关模块import numpy as npimport matplotlib.pyplot as plt# 使中文正常显示的参数设置plt.rcParam...

2018-11-15 17:31:46 14747 2

原创 多元正态分布的极大似然估计

多元正态分布的极大似然估计1. 一元正态分布的密度函数一元正态分布的密度函数表示为:f(x)=1(2π)−−−−√σe−(x−μ)22σ2f(x)=1(2π)σe−(x−μ)22σ2f(x) = \frac{1}{\sqrt {(2 \pi)} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}其中,σ>0σ>0

2018-06-20 13:53:12 38649 10

原创 HMM的参数学习问题

HMM的参数学习问题HMM的参数学习问题有两种:监督学习:给定观测序列O=(o1,...,oT)O=(o1,...,oT)O = (o_1,...,o_T)和对应的状态序列I=(i1,...,iT)I=(i1,...,iT)I = (i_1,...,i_T),估计参数λ=(A,B,π)λ=(A,B,π)\lambda = (A,B,\pi)。非监督学习:只给定观测序列O=(o1,......

2018-03-19 16:41:37 5071 2

原创 HMM的概率计算问题

HMM的概率计算问题HMM的概率计算问题是指,给定模型参数λ=(A,B,π)λ=(A,B,π)\lambda = (A,B,\pi) 和观测序列O=(o1,o2,...,oT)O=(o1,o2,...,oT)O = (o_1,o_2,...,o_T),计算在模型λλ\lambda下,观测序列OOO出现的概率:P(O|λ)P(O|λ)P(O | \lambda)。直接计算按概率公...

2018-03-18 01:07:30 2352

原创 HMM的基本概念

HMM的变量定义两个集合长度为NNN的隐状态集合Q={q1,q2,...,qN}Q={q1,q2,...,qN}Q = \{q_1,q_2,...,q_N\}长度为MMM的观测值集合V={v1,v2,...,vM}V={v1,v2,...,vM}V = \{v_1,v_2,...,v_M\}两个序列长度为TTT的隐状态序列I={i1,i2,...,iT}I={i1,i2,....

2018-03-17 16:28:51 1418

原创 EM算法及对GMM的参数估计(EM算法的R实现 vs R mclust包)

EM算法与高斯混合模型(GMM)EM算法是一种迭代算法,1977年由Dempster等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由2步组成:E-step:求期望(expectation)M-step:最大化(maximization)所以该算法称为期望极大算法(expectation maxim...

2018-03-10 01:21:25 13218 4

原创 【杂纪】从ROC曲线到AUC值,再到Mann–Whitney U统计量

统计检验中的两类错误在进行假设检验时,分别提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis),检验结果可能出现的两类错误:原假设实际上是正确的,而检验结果却拒绝原假设,称为第一类/第一型错误(Type I error)、弃真错误原假设实际上是错误的,而检验结果却接受原假设,称为第二类/第二型错误(Type II error)、取伪错误...

2018-02-16 23:01:00 5926 2

转载 怕是诸葛先生听了也要为之动容吧~

优酷:王洛勇英文朗诵《出师表》臣亮言:先帝创业未半而中道崩殂,Permit me liang to observe: the late emperor was taken from us before he could finish his life’s work, the restoration of the Han.今天下三分,益州疲弊,此诚危急存亡之秋也。Today, th

2018-01-25 13:15:25 393

原创 糗事百科(Python(正则表达式、BeautifulSoup、Lxml) & R(rvest))

PythonPython中用于爬取静态网页的基本方法/模块有三种:正则表达式、BeautifulSoup和Lxml。本文使用这三种方法分别抓取同样的数据,并计算各自的耗时,从而对三者的性能做简单探讨。三种方法的特点大致如下: 爬取方法 性能 使用难度 安装难度 正则表达式 快 困难 简单(内置模块) BeautifulSoup 慢 ...

2018-01-23 20:57:36 632

原创 【正则表达式】斗破苍穹(Python & R)

Python# 加载模块import reimport timeimport requests# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari

2018-01-20 19:23:11 736

原创 【CSS Selector】酷狗Top500(Python & R)

Python# 加载模块import pandasimport requestsfrom bs4 import BeautifulSoup# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Geck

2018-01-19 14:41:56 769

原创 【CSS Selector】小猪网短租房(Python & R)

Python# 加载模块import csvimport timeimport codecsimport randomimport requestsfrom bs4 import BeautifulSoup# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \

2018-01-18 21:07:21 497

原创 RSelenium包抓取网易云音乐歌词(iframe框架的处理)

思路Created with Raphaël 2.1.2网易云音乐《中国嘻哈榜》Step1:遍历《中国嘻哈榜》页面,获得每期链接programlinkStep2:遍历所有期数链接,获得每期歌曲链接musiclinkStep3:遍历每首歌曲链接,获得歌词lyricEnd页面准备library(RSelenium)library(rvest)base <- "htt...

2017-12-27 01:19:32 1083 1

翻译 【函数】R语言System {base}函数简介

system {base}描述函数system的作用是,调用由参数command指定的操作系统命令。用法system(command, intern = FALSE, ignore.stdout = FALSE, ignore.stderr = FALSE, wait = TRUE, input = NULL, show.output.on.console =

2017-12-23 21:00:23 12996

原创 RSelenium包抓取链家网(下:数据存储与容错管理)

HouseinfoFunc function(link) { destianation "UTF-8") # 获取第i条房屋链接的页面内容 location % html_nodes("a.no_resblock_a") %>% html_text() # 小区位置 unit % html_nodes(".price span.uni

2017-12-16 22:07:13 1214

原创 RSelenium包抓取链家网(上:模拟点击与页面抓取)

安装RSelenium包install.packages("RSelenium")# 直接从CRAN下载RSelenium包启动Selenium服务器在控制台输入java -jar D:\R\library\Rwebdriver\selenium-server-standalone-3.7.1.jar以启动Selenium服务器。保持打开状态,可配合plantomjs、Chrome或Firefo

2017-12-14 19:21:19 4206

翻译 【包】R语言rvest包简介

rvest 参考资料: rvest包github项目主页 rvest参考手册 rvest包文档简易翻译

2017-12-09 10:58:52 4748

翻译 【包】R语言rdom包简介

1. 官网下载Selenium最新版本目前更新至3.7.1版,本地存放路径为D:\R\library\Rwebdriver\,名称为selenium-server-standalone-[version.number].jar,即selenium-server-standalone-3.7.12. 运行Selenium需要搭建Java环境JDK(Java SE De

2017-12-05 14:04:52 2108

原创 RSelenium/Rwebdriver/rdom包抓取表格数据

安装RSelenium/Rwebdriverinstall.packages("RSelenium")#直接从CRAN下载RSelenium包install.packages('devtools');library(devtools);install_github(repo='Rwebdriver',username='crubba')#从github下载Rwebdriver包RSe

2017-12-03 13:16:34 2147

转载 来自 Google 的 R 语言编码风格指南

R 语言是一门主要用于统计计算和绘图的高级编程语言。这份 R 语言编码风格指南旨在让我们的 R 代码更容易阅读、分享和检查。以下规则系与 Google 的 R 用户群体协同设计而成。概要:R编码风格约定一、表示和命名文件命名:以.R(大写)结尾标识符命名:variable.name(或variableName),FunctionName,kConstantName二、语法...

2017-12-03 12:10:35 1260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除