自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 机器学习 | 逻辑回归

更多内容,关注wx公众号:数据分析这件小事儿在监督学习中,存在着大量关于“是与非”的二分类问题,并存在广泛的应用,比如:人脸识别(是否为人脸)、自动驾驶(是否刹车)、银行贷款(是否批准贷款)、垃圾邮件过滤(是否为垃圾邮件)等。以过滤垃圾邮件为例,响应变量只有两种可能,y=1(垃圾邮件)和y=0(正常邮件),这种0-1变量称为虚拟变量或哑变量。统计学中,将Probit与Logit模型统称为广义线性模型(GLM),机器学习常用Logit模型,其本质上是非线性模型,所以一般使用最大似然估计。非线性模型的拟合

2021-09-03 17:28:44 1198

原创 机器学习 | 回归问题

机器学习 | 回归问题更多内容,关注wx公众号:数据分析这件小事儿对于监督学习,其基本问题就是使用特征向量x预测响应变量y,如果响应变量y为连续变量,则称为回归问题。用x来预测y,是否存在一个最优的预测函数g(x),一般使用均方误差(MSE)来作为预测优良程度的度量:最小二乘法普通最小二乘法(OLS)是估计线性回归模型的基本方法,以一元线性回归为例,有一个特征变量x,OLS的任务就是根据训练数据来估计回归方程y=a+bx,其思想是在平面上找到一条最佳拟合直线,使得所有样本点到此拟合线的距离最近。

2021-09-03 17:09:37 967

原创 机器学习 | 朴素贝叶斯

机器学习 | 朴素贝叶斯更多内容,关注wx公众号:数据分析这件小事儿贝叶斯派与频率派在参数估计上,有两个方法,MLE(最大似然估计) 和MAP(最大后验估计),分别代表了频率派和贝叶斯派。频率派关心的是似然函数,认为用样本去计算出的概率就是真实的,而贝叶斯派关心的是后验分布,他们认为样本只是用来修正经验观点。贝叶斯学派的思想可以概括为先验概率+数据=后验概率,即实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。先验概率:指根据以往经验和分析,在实验或采样前就可以得到的概率。后验

2021-09-03 16:53:44 720

原创 幸存者偏差 | 妈妈为什么不挑食?因为她买菜的时候已经挑过了

幸存者偏差 | 妈妈为什么不挑食?因为她买菜的时候已经挑过了更多内容,关注wx公众号:数据分析这件小事儿什么时幸存者偏差?“幸存者偏差”来源于一个二战时期的故事:二战时期,空军是最重要的兵种之一,盟军的空军在战斗中受损严重。为了尽量减少被击落的概率,当时军方统计了所有返回的飞机的中弹情况,发现机翼部分中弹数较多,而机身和机尾部分则较少,于是就提出建议:应该加强机翼的防护,因为这是最容易被击中的位置。但来自哥伦比亚大学的统计学教授沃德持反对意见,他认为应该加强机身和机尾部分的防护。原因很简单,很

2021-09-03 16:42:45 584

原创 苏亚雷斯生涯数据分析

详情见公众号:数据分析这件小事儿https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483709&idx=1&sn=0f49f6e4d796ba1695eef3d10a7b3bc9&chksm=eb1d3451dc6abd474187a162dd8693f275cdb8ef615beb053f25ead5423cc57a9d0d4b679826&token=794838180&lang=zh_C

2021-02-10 18:45:52 270

原创 Kaggle-泰坦尼克号数据集可视化分析

详情见公众号:数据分析这件小事儿https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483680&idx=1&sn=7e3c01c76fd16ec64b9e5d379b3e0bbc&chksm=eb1d344cdc6abd5abae712330b013d278ab7b56c4e0e57d0dee98c5fa7a7104b94655935eee6&token=794838180&lang=zh_C

2021-02-10 18:44:30 690

原创 Kaggle-NFL数据集可视化分析

详情参见公众号:数据分析这件小事儿https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483719&idx=1&sn=c26bd10d6d3d34ec98f5424f60520ce0&chksm=eb1d342bdc6abd3d3ef9e32c0ef5774d0adb8c0564fb57a0fd8a6cea8e93ebc30768d3d74f1c&token=794838180&lang=zh_

2021-02-10 18:42:03 255

原创 Kaggle-爱彼迎数据集可视化分析

具体参见公众号:数据分析这件小事儿https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483748&idx=1&sn=470798e58804f9c83b5ec9ccda3e6aaf&chksm=eb1d3408dc6abd1e8b735d82248e67ea66ccb6685f3e07cfee51b63f09d6cba09c115a046548&token=794838180&lang=zh_

2021-02-10 18:38:52 662 1

原创 如何在Jupyter中使用R软件

只需要在anaconda中创建一个含有R的新环境具体安装步骤可以看官方文档https://docs.anaconda.com/anaconda/navigator/tutorials/r-lang/

2021-02-10 10:12:03 178

原创 Scrapy爬取网易新闻

创建一个scrapy项目#在cmd中 依次输入 #scrapy startproject news#cd news#scrapy genspider -t crawl news163 news.163.com在items.py文件里输入要爬取的内容import scrapyclass NewsItem(scrapy.Item): news_thread = sc...

2020-04-28 10:52:46 559 3

原创 电影《战狼》评论词云分析

电影《战狼》评论词云分析导入需要使用的第三方库import pandas as pdimport numpy as npimport jiebafrom pyecharts import options as optsfrom pyecharts.charts import Barfrom pyecharts.charts import WordCloud2.读取爬取到的评论...

2020-04-27 09:31:59 1468 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除