2020年10月_晓炜

原创 python 爬虫实战四：用 selenium 爬取知乎某一问题下所有回答

用 selenium 爬取知乎某一问题下所有回答前言模拟登录动态爬取完整代码效果展示前言最近我又重新拾起了爬虫，想实现一下前几次爬虫所没有涉及到的两个点：模拟登录和动态网页爬取，所采用的方法是利用 selenium 这个库，例子是爬取知乎某一问题下所有回答。模拟登录很多网站，比如知乎、微博、豆瓣，都需要登录之后，才能浏览某些内容。所以想要爬取这类网站，必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站

2020-10-31 15:32:03 2284 1

原创 ISLR读书笔记终

花了一个月左右的时间，统计学习暂告一段落。接下来准备去Kaggle上找点项目练练手，有时间的话再看一下NLP。

2020-10-25 15:52:27 216

原创 ISLR读书笔记二十：聚类分析（Clustering）

123

2020-10-25 15:22:42 560

原创 ISLR读书笔记十九：主成分分析（PCA）

前面写的一些统计学习方法都是属于监督学习（supervised learning），这篇主成分分析（principal components analysis，简称 PCA ）和下一篇聚类分析（clustering）都是属于非监督学习（unsupervised learning）。之前 ISLR读书笔记十二中已经提到过主成分这一概念。其主要目的是利用一小部分数据组合，尽可能多地体现全部数据的特征，从而实现降维的作用。这里的尽可能多地体现可以有两种解读：数据方差最大最近似。...

2020-10-23 16:28:33 670

原创 ISLR读书笔记十八：支持向量机（Support Vector Machines）

上一篇讲到的支持向量分类器适用于两类的边界是线性的情况，如果边界是非线性的，用支持向量分类器得到的结果并不好。所以，对于一般的非线性边界的问题，需要采用新的方法：支持向量机。其基本思想是用核的方法来扩大特征空间。出发点如下：可以证明，支持向量分类器的解maximize⁡β0,β1,…,βp,ϵ1,…,ϵnM subject to ∑j=1pβj2=1yi(β0+β1xi1+β2xi2+…+βpxip)≥M(1−ϵi)ϵi≥0,∑i=1nϵi≤C\begin{arra

2020-10-21 10:41:10 328

原创 ISLR读书笔记十七：支持向量分类器（Support Vector Classifier）

上一篇讲到的最大边际分类器存在两个问题：无法解决线性不可分的情况，即如果不存在分离平面，那么最大边际分类器就失效了。鲁棒性较差。如果添加一个观测数据，可能会导致最大边际超平面产生较大变化。针对这两个问题，引入支持向量分类器（Support Vector Classifier）。其大致思想是：以小范围的错误，换取更大范围的正确。即边际未必完美地将数据分离成两类，允许犯错，允许一些数据错误地划分到边际的一边，甚至允许一些数据错误地划分到超平面的一边，以牺牲小部分分类错误为代价，建立一个更加

2020-10-20 12:05:59 1252

原创 ISLR读书笔记十六：最大边际分类器（maximal margin classifier）

最大边际分类器前言超平面分离超平面最大边际超平面前言本篇和接下来的两篇将介绍一种重要的分类方法：支持向量机（support vector machines）。本篇主要讲的是最大边际分类器（maximal margin classifier），是支持向量机的基础。接下来两篇将分别介绍支持向量分类器（support vector classifier）、支持向量机（support vector machines）。超平面超平面（hyperplane）指的是 ppp 维空间的 p−1p-1p−1 维线性子

2020-10-17 11:22:49 2092 1

原创 ISLR读书笔记十五：Bagging, Random Forests, Boosting

Bagging, Random Forests, BoostingBaggingRandom ForestsBoostingBagging前一篇的决策树模型，有一个问题：预测结果的方差会很大，可以通过 bagging的方法来降低方差。其主要思想如下：用自助法（bootstrap）的方式得到 BBB 个不同的训练数据集，设第 bbb 个数据集上的得到的预测结果为 f^∗b(x)\hat{f}^{*b}(x)f^∗b(x)，对于回归问题，最终的预测结果可表示为f^bag(x)=1B∑b=1Bf^∗b

2020-10-16 21:00:41 246

原创 ISLR读书笔记十四：决策树（decision tree）

决策树回归树分类树优缺点回归树基本思想：将自变量 X1,X2,⋯ ,XpX_1,X_2,\cdots,X_pX1,X2,⋯,Xp 构成的空间，划分成 JJJ 个不同的区域 R1,R2⋯ ,RJR_1,R_2\cdots,R_JR1,R2⋯,RJ对于落入 RjR_jRj 中的每一个数据，用该区域内因变量的均值，作为预测值。例子：假设棒球运动员的薪水与球龄和击打数有关，可以用如下简单的决策树方法，根据球龄和击打数来预测薪水。术语：这里 R1,R2,⋯ ,RJR_1,R_2,\

2020-10-15 19:08:39 608 1

原创 ISLR读书笔记十三：非线性回归

非线性回归前言多项式回归（polynomial regression）阶梯函数（step function）回归样条函数（regression splines）光滑样条函数（smoothing splines）局部回归（local regression）广义加性模型（generalized additive model）前言之前介绍的主要是线性回归的方法，本篇主要讲述一些非线性回归的方法，主要基于的方法是基函数（basic functions），即拟合模型：yi=β0+β1b1(xi)+β2b2(x

2020-10-14 19:24:31 287

原创 ISLR读书笔记十二：模型选择——降维法（dimension reduction methods）

模型选择——降维法前言PCRPLS前言前面介绍的两类模型选择的方法，都保留了原始的自变量，而降维法则对原始自变量进行了转化，其大致思想是将原来的 ppp 个自变量，整合成 MMM 个自变量（M<pM<pM<p）。若令 Z1,Z2,⋯，ZMZ_1,Z_2,\cdots，Z_MZ1,Z2,⋯，ZM 表示 ppp 个原始自变量的 MMM 个线性组合，即Zm=∑j=1pϕjmXjZ_m=\sum_{j=1}^p\phi_{jm}X_jZm=j=1∑pϕjmXj然后对这

2020-10-13 11:25:19 745

原创 ISLR读书笔记十一：模型选择——收缩法（shrinkage methods）

模型选择——收缩法岭回归（ridge regression）Lasso调参收缩法是另外一类模型选择的方法。收缩法将所有 ppp 个自变量进行拟合，但是将某些自变量的系数收缩到 0。主要有 ridge regression 和 lasso 两种方法。岭回归（ridge regression）线性回归模型中，最小化RSS：RSS=∑i=1n(yi−β0−∑j=1pβjxij)2RSS=\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^p\beta_jx_{ij})^2RSS=i=1

2020-10-11 20:11:48 1183

原创 ISLR读书笔记十：模型选择——子集选择法（subsect selection）

模型选择——子集选择法前言最优子集法逐步选择法向前逐步选择向后逐步选择混合逐步选择如何评价最优前言这篇文章主要讲的是模型选择（model selection）中的一类方法：子集选择法（subsect selection），接下来两篇文章将介绍模型选择的其他两类方法：收缩法（shrinkage）和降维法（dimension reduction）。首先为什么要进行模型选择呢？以线性回归模型为例，主要出于预测准确性（prediction accuracy）和模型解释度（model interpretabil

2020-10-11 14:45:51 1538

原创 ISLR读书笔记九：自助法（bootstrap）

自助法是一类应用很广的统计方法，可以用来定量化参数估计或者统计学习方法的不确定性。自助法重复地从原数据集中采样，这里采样是可放回的（replacement），可以允许有同样的样本出现，然后用得到的样本进行参数估计。举一个例子来说明自助法的应用。假设有 XXX 和 YYY 两种不同的金融资产，现要对 XXX 和 YYY 进行投资，使得总风险最小。假设有 α\alphaα 投给了 XXX， 1−α1-\alpha1−α 投给了 YYY，那么总风险就是 Var(αX+(1−α)Y)Var(\alpha X+(1

2020-10-10 11:30:57 498

原创 python数据分析实战一：IMDB Top 250

Top 250 Movies in IMDBData preparationData cleaningMissing valueData wranglingData analysis and visualizationNumber of top250 movies every yearThe distribution of RatePercent of each levelTop 10 directorsTop 10 WritersTop 10 StarsThe distribution of runtim

2020-10-09 21:28:32 1033

原创 ISLR读书笔记八：交叉验证法（Cross-Validation）

交叉验证法（Cross-Validation）前言校验集方法留一法k折交叉验证前言校验集方法留一法k折交叉验证

2020-10-06 15:05:21 409

原创 ISLR读书笔记七：线性判别分析（LDA）

线性判别分析（LDA）前言单变量的LDA多变量的LDA二次判别分析（QDA）前言线性判别分析（linear discriminant analysis，简称LDA）是一种解决分类问题的方法。上一篇文章中讲到的逻辑斯蒂回归是处理分类问题的一个很好的模型，那么为什么还需要LDA呢？主要有以下三个原因：当类分离得很好的时候，逻辑斯蒂回归的参数估计很不稳定，而LDA不会存在这个问题。当 nnn 很小，而自变量 XXX 的分布大致服从正态分布时，LDA比逻辑斯蒂回归更稳定LDA比逻辑斯蒂回归更适合处理多分

2020-10-01 09:06:03 1639

weixin_43084570的博客