ML
文章平均质量分 66
data science
Clark Kent 2000
HUSTer
展开
-
python图片爬虫,指定关键字爬取Google图片+搜狗图片
需求爬取若干张(>1000)图片,图片大小不限,后缀名不限,网站来源不限。环境windows + python3.7 + jupyter (or pycharm)备注这可能不是标准的爬虫写法,我仅仅是半路出家,临时上阵写的,但的确能用。实现如果你稍微懂一些 前端请求 & 前端控件写法 & 前端调试 & 后端服务请求 or java or python,可以直接参阅下面代码:import requestsimport urllibimport原创 2020-12-02 15:32:08 · 2631 阅读 · 1 评论 -
4--Python3智能数据分析快速入门--函数与对象
目录4.1 函数4.1.1 内置函数1.与数据对象相关的函数2.数学计算函数3.与str相关的函数4.与序列对象相关的函数5.I/O功能函数6.用于查询与判断的函数7.其他内置函数4.1.2 自定义函数1.def语句2.参数3.作用域4.2 对象4.2.1 面向对象简介4.2.2 属性与方法1.类属性与实...原创 2019-08-26 20:17:06 · 707 阅读 · 1 评论 -
3--Python3智能数据分析快速入门--控制语句
目录3.1 条件语句3.1.1 if、elif与else3.1.2 try、except与else3.2 循环语句3.2.1 for3.2.2 while3.2.3 break、continue与pass1.break2.continue3.pass3.2.4 列表推导式在计算机中,程序执行的方向被称为控制流。最基本的情况下,程序从首条代码开始...原创 2019-08-26 19:47:19 · 405 阅读 · 0 评论 -
Python3智能数据分析快速入门--2--Python基础知识
目录写在前面声明与注释声明注释缩进与多行语句缩进多行语句保留字符与赋值保留字符赋值基本的赋值序列赋值链接赋值增量赋值运算符算数运算符赋值运算符比较运算符逻辑运算符按位运算符身份运算符成员运算符运算符优先级数据类型基础数据类型1.number2.str复合数据类型1.list...原创 2019-08-22 21:46:19 · 1295 阅读 · 0 评论 -
Python3智能数据分析快速入门--1--python 概述
目录书籍介绍python 概述介绍Python特性Python应用领域Python机器学习优势环境配置Python 2还是Python 3Anaconda简介安装Anaconda 3python解释器python IDEPyCharm的安装与使用Jupyter Notebook的使用课后习题第一部分是Python编程基础篇...原创 2019-08-21 21:00:12 · 1663 阅读 · 0 评论 -
变量分析 cheat sheet
条件:单变量&连续性变量 目的:验证单变量是否满足正态分布 思路:Shapiro-Wilk test + Q-Q plot 例子: x<-rnorm(10,0,2) shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.92412, p-value = 0.392 条件:单变量&连续性变量&变量属于正态分布&...原创 2021-01-07 13:41:16 · 193 阅读 · 0 评论 -
R 常用functions
写在前面R并不擅长在编程语言数据结构方面,但数据处理/建模/画图的过程中,有时确实用得到一些简单的的数据结构。R为弱类型语言,语法上也非常宽松,运行是基本不太会报错,但速度上略慢,比Python还慢,但这种慢除非大数据量不然并不会被感知到。这里总结了一下一些简单操作/list/vector/string/map常用方法。为了加快速度,建议尽量使用api而不是自己写循环或者什么方式去实现。使用这样方法,基本上可以实现简单的算法题,必须栈/链表/树/图等结构的,不包括在内。基本数据保留小数位原创 2020-09-28 15:43:36 · 292 阅读 · 0 评论 -
R LightGBM 安装和使用
LightGBM 在 R上的安装,不太好装,github 上提供的方法我机器装不上,最后我成功的方式是 :1 在 地址 下载 包2 Rtool 以安装包形式安装PKG_URL <- "https://github.com/microsoft/LightGBM/releases/download/v3.0.0/lightgbm-3.0.0-r-cran.tar.gz"remotes::install_url(PKG_URL)library(devtools)opti...原创 2020-09-08 19:56:59 · 2515 阅读 · 6 评论 -
R 如何缓存任意R对象 How to cache R object in R
在 R studio 上运行R代码时,公共区域的变量会存在内存中且可以被全局访问 (私有代码块内的临时变量除外),这和Python很像,和静态语言如JAVA, C 很不一样。R/python进行数据分析过程中,需要刻意用到缓存的场景倒不是很多,一般的公共区域变量全局访问就够用了。但在大一些的项目中,譬如我写了一个提供 动态生成models,计算统计指标,画图等APIs 的R服务器,这时候缓存一下请求结果,就不用每次重新计算了。我尝试自己写个list,用key-value的形式模仿实现Java中的ma原创 2020-09-07 11:06:25 · 367 阅读 · 0 评论 -
Kaggle Predict Future Sales 竞赛(score 0.899, top 11%)报告
Kaggle Predict Future Sales 竞赛报告唐健 jiantang2000@163.com 2020-07-31摘要Kaggle 上的Predict Future Sales竞赛提供了俄罗斯1C company 近3年来的销售数据,其要求是使用这些数据进行建模,并预测接下来一个月里的每个商店的每种商品的销售量。这篇报告介绍了如何参加这个比赛,给出了一个如何使用R语言进行数据清洗,特征工程抽取,模型构建的全过程。截止到2020/7/31,模型在竞赛中提交了15次,取得的最终分数原创 2020-07-31 20:35:08 · 1709 阅读 · 0 评论 -
决策树-森林-集成学习
写在前面本文粗略地(不带数学公式)介绍了决策树 & 随机森林 & boosting & bagging 。如它们的原理,之间的关系,适用场景,优缺点等。一个小小的吐槽:我也不太理解树在ML中为什么这么火,相比之下似乎我花了大量的精力在各种复杂的回归模型之中。之前老师讲到 分类 相关内容时,covid-19爆发,也就停课了,只有自学,学的很差。正文1-树树形结构使用决策树决策的过程即从根节点开始,选择一个特征作为当前节点的分裂标准,自上而下生成子节点,直到到达叶子节.原创 2020-07-23 16:15:15 · 463 阅读 · 0 评论 -
R语言,GLMM 模型 ,lme4包中的 lmer()的使用
写在前面本文介绍了 R 语言 中, 用 “lme4” 包中的“lmer()”函数 构建 GLMM 模型的一些内容。问题R语言中,构建GLMM 模型时,一个好的选择是使用“lme4” 包中的“lmer()”函数。前些天一个小伙伴问我 :"下面这个模型中,(1|car_type) 是啥意思啊?"lmer(wear~wheel+(1|car_type))我其实一直知道这是一个 "固定部分(wheel) + 随机部分 (car_type)" , 而且它仅仅是 随机截距而 没有随机斜...原创 2020-07-19 10:14:18 · 24000 阅读 · 1 评论 -
Classification methods 分类算法 (R)
写在前面介绍了 6 种分类算法, 分别是Linear discriminant analysis (LDA),Quadratic discriminant analysis (QDA),Logistic regression (LR),Support vector machines (SVM),K-nearest neighbour (KNN).为了介绍这五种算法是怎么操作的,我们会使用一个模拟数据的例子,先介绍算法的原理,再使用的R语言搭建模型,再判断模型的拟合程度,再对多个.原创 2020-06-22 23:32:57 · 1377 阅读 · 0 评论 -
机器学习概念-model fit , Resampling Methods
写在前面机器学习的一些概念,虽然很基础,但多回顾回顾总是没错。会涉及到 监督/非监督学习,常见的model fit (MSE)判断 和 Resampling Methods (CV)监督/非监督学习非监督即 数据中包括 predictors Xi only; 常见的如 clustering (聚类)监督即 数据中包括 predictors Xi 和 Response Yi ;常见的如 回归,分类回归和分类的区别:回归涵盖了Response Yi是 连续的/数值的 情况;分类...原创 2020-06-22 22:40:05 · 1021 阅读 · 0 评论 -
Bayesian framework 贝叶斯框架 (R)
写在前面本文介绍了贝叶斯定理,贝叶斯回归模型等。贝叶斯公式大家都耳熟能详,高中数学甚至都有涉及,即:用先验概率和条件概率求出另外的条件概率。但贝叶斯回归模型我一直认为是一个非常trick 的内容,我一度觉得这是我的个人问题。用一张图解释本文的内容:一些术语prior : 1 happening or existing before sth else or before a particular time , 2 already existing and therefore...原创 2020-06-22 21:43:59 · 8040 阅读 · 0 评论 -
Generalised Linear Model (GLM) --2-- 指数家族 和 GLM定义 (R)
指数家族为什么要说指数家族?回顾likelihood,它给出了一种获取模型参数点估计的方法(MLE),模型是一堆PDF/PMF的joint, 而指数家族,就是一些经典常见的PDF/PMF 。简单线性模型假设数据和响应变量之间是正态分布的关系,这个正态分布 就是 指数家族的一员。 GLM在lm的基础上进行扩展, 不再要求 “数据和响应变量之间是正态分布” 的关系, 而是要求 “数据和响应变量之间的关系是指数家族中的某一种”即可。指数家族的公共形式指数家族提供了一种公共形式,只要某种...原创 2020-06-19 22:38:33 · 1399 阅读 · 0 评论 -
Generalised Linear Model (GLM) --1-- likelihood (R)
写在前面介绍了 likelihood,指数家族概率分布的公共形式和性质,GLM的定义,fitting the GLM,Inference in the GLM , GLM的例子,GLM的限制。内容较多,会分成多篇。一些prior基础内容的了解是有必要的:常见概率分布(如正态,泊松,二项,gamma等),基础的高等数学,基础的统计概念,简单线性回归。我的前几篇博文,有说到:xx是GLM的特例,XX是GLM的推广这样的话,GLM确实是我个人较为喜欢和推崇的内容,这里我会尽可能地将它描述清楚。..原创 2020-06-17 15:38:59 · 918 阅读 · 1 评论 -
Smoothers and Generalised Additive Models 广义加性模型 (R)
GAM(Generalised Additive Models)是什么?请对glm有一定了解,否则本文看起来会很跳跃。gam 可以看作是 glm 的扩展,对于真实世界的数据,可能是更加光滑,在不同阶段有不同光滑程度 的曲线,而不是简单的线性模型。为了应付这种 模型中更光滑部分 (smoother)的需求,我们引入 ”加性模型“, 譬如 我们使用了 更高的次幂 ,但这个法子有 undesirable properties,于是我们引入了 splines + knots 结构 的加性模型 。这个...原创 2020-06-17 00:03:10 · 973 阅读 · 0 评论 -
Logisic regression and classification 逻辑回归 和 分类 (R/python )
Logisic regressionLogistic回归是基于一个或多个预测变量(x)预测个体的类别(或类别),用于建模一个二元结果,即一个变量,它只能有两个可能的值:0或1、是或否、患病或不患病。Logistic回归属于GLM族,它不直接返回观测的类别。它允许我们估计类成员的概率(p)。概率范围在0到1之间。我们需要确定类别从一个类别到另一个类别的阈值概率。默认情况下,这个值设置为p = 0.5,但实际上应该根据分析目的来确定。如果你对GLM很熟悉,那 LR 仅仅是 GLM 指数家族中Bin.原创 2020-06-16 23:37:05 · 580 阅读 · 0 评论 -
Multiple Linear Regressions 多元线性回归 (R)
多元回归多元回归是线性回归模型的自然延伸。它用于从几个解释变量预测响应的值。每个解释变量都有自己的系数。响应变量由所有变量乘以各自系数的组合来预测。其基本原理与简单回归相同:我们寻求预测因子的线性组合,以最小化与结果变量的差异。the parallel slopes model 平行斜率模型数据展示当我们遇到两个 变量的场景,其中一个是 数字型变量(温度),其中一个是 分类型变量(是否是周末),我们定义了下面这样的模型:X1 是“温度”,X2是 “是否是周末”..原创 2020-06-16 23:19:40 · 2640 阅读 · 0 评论 -
Simple Linear Regressions 简单线性回归 (R)
写在前面这篇文章不是告诉‘不知道什么是线性模型的人’线性模型是什么,你可以自行Google。它是在对线性模型有一定了解的基础上的一个细节探索。我一开始也觉得lm没什么,挺简单的,但后来我越来越觉得并非如此...用GLM表示普通线性模型如果你不知道GLM,可以跳过这一小节说lm是GLM的一个特例, 我也更喜欢用GLM的形式描述什么是 “线性模型 ”(Normal theory linear model),也就是这样的:看起来非常清晰。当然,如果你不知道GLM,可以跳过这一小节。原创 2020-06-16 22:16:29 · 1156 阅读 · 0 评论 -
主成分分析 PCA (Principal components analysis)& 图像压缩 Image Compression (R)
写在前面本文介绍了PCA原理,以及 R语言实现PCA 的两个例子 ,一个是对非常有名的 iris 数据,一个是使用PCA实现图片压缩主成分分析主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量 (在线性代数里,矢量空间的一组元素中,若没有矢量可用有限个其他矢量的线性组合所表示,则称为线性无关或线性独立 (linearly independ原创 2020-06-16 21:03:58 · 1509 阅读 · 0 评论 -
层级模型 Generalised linear mixed models / Hierarchical modelling (R/python)
写在前面:Generalised linear mixed models (GLMMs)(Hierarchical Models)简单点说就是GLM的变形,如果你对GLM很熟,那你可以回想一下GLM的数学形式,然后在GLM 的线性部分(fixed paramters) 加了一个 “遵循正态分布 的随机部分”(random effects ),这个随即部分的 均值位0 ,方差 为某个值,这就是 GLMMs这篇文章里只是一个简单的介绍,我不会细写其数学形式,也许在写了GLM之后我会补上。...原创 2020-06-15 19:01:22 · 2048 阅读 · 0 评论 -
聚类 Hierarchical and K-means Clustering (R/python)
what is Clustering?聚类是一种统计技术,它适用于非监督学习,在数据中创建分组;与不同集群中的对象相比,同一集群中的对象之间的相似性更大;应用场景:客户偏好 基因功能预测 个体化用药 ......Hierarchical Clustering (分层/层次聚类)分层聚类首先将每个观测数据放到单独的集群中。 它检查了所有观测值之间的所有距离 (这个距离可以由不同的算法计算出来,比如欧里几何距离和曼哈顿距离),并将两个最近的观测值配对,形成一个新簇团。 这个过程.原创 2020-06-15 18:41:25 · 1052 阅读 · 0 评论 -
可视化 Visualisation 总结 (R/python)
写在前面:“R is very powerful in data analysis and visualization”整个 master 的学习,在数据分析时基于用的R和python,这里小小的总结了一些 R 的可视化,给出每部分的例子,部分词语方便起见用的英文,emmm.Visualisation:bar charts to display frequencies for qualitative (定性的)variables ,一般用来辅助理解数据。 pie charts to di.原创 2020-06-15 18:17:34 · 1483 阅读 · 0 评论 -
一个基于PMML的用于开发R-Java分析应用程序的框架
写在前面这是一个关于“用于开发R-Java分析应用程序的基于PMML的框架”的文章。我写的时候就用的英文,英文也算很易懂,但有时间我也许会再写一个中文版本。A PMML Based Framework for Developing R-Java Analytic Applications JianTangAbstractThe process of building R-Java analytic applications presents challenges such as ..原创 2020-06-14 01:58:16 · 185 阅读 · 0 评论 -
信度和项目总分相关的关系,SPSS信度(Cronbach系数alpha)的数学计算和代码
为什么要做信度计算以及项目总分相关?cronbach α值大于0.7就属于可以接受范围,说明信度较好,其实是不用必须看项目总分相关的。修订问卷的时候往往不能一次就确定哪些题目合适哪些不合适,这个时候如果直接把所有题目加总,实际是不合适的。因为不同维度间的题目,和其他项目可能相关不高,这样加出来的总分不能很好地代表问卷整体,所以一般做问卷的质量分析时不做项目总分相关。另外,cronbach α值...原创 2019-06-13 12:41:34 · 26603 阅读 · 2 评论