自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Python爬虫实例:Scrapy爬取股票信息到SQL数据库

今天给大家分享一个之前完成的爬虫实例,利用Scrapy库和docker爬取股票信息。这个案例的目标是爬取股票的信息并存放到SQL Server当中。这应该算是爬虫入门必学的案例了,话不多说,直接上干货。首先看一下我们今天要用到的库和工具:from scrapy import Spider, Requestfrom scrapy_splash import SplashRequestimport scrapyimport refrom getStock.items import Getstoc

2020-09-21 19:46:43 1820 1

原创 Kaggle实战入门(四)之Cat-In-The-Dat-ii

第四个项目比较简单和有趣,因为它的数据集全部都是分类型特征,在这种情况下,我们又应该怎么做呢。在这里给大家分享一个比较好用的模型catboost和对分类型特征处理的编码方式TargetEncoder。在这个项目中可以方便快捷的对数据进行处理和建模。Part1.数据导入import numpy as npimport pandas as pdimport osfrom sklearn.exceptions import ConvergenceWarningimport warningswarn

2020-09-21 00:12:20 1040

原创 Kaggle实战入门(三)之纽约出租车价格预测New-York-City-Taxi-Fare-Prediction

今天给大家分享第三个kaggle竞赛项目,纽约出租车价格预测New-York-City-Taxi-Fare-Prediction。这个项目的特点是给到我们的数据集比较大,有5.3G,数据总量是5400W行。不过我们在做这个项目的时候并不需要这么多的数据量,下面我们就一起来看一下这个项目。Part1.数据导入和初步分析首先导入我们的数据集,由于数据量过大,我们只导入前500W行的数据进行建模。import numpy as npimport pandas as pdimport matplotlib

2020-09-20 23:23:37 4240 8

原创 Kaggle实战入门(二)之房价预测Housing Prices Competition

这是博主第二个kaggle项目,Housing Prices Competition。这个项目是基于波士顿房价改编的数据集对房子的价格进行预测。虽然是基于波士顿房价数据集,但改编过后有着80多个数据特征,还是有一定难度的。下面给大家分享一下我的做法把,同样地在kaggle上排到了前10%的成绩。Part1.数据导入和初步分析先来初步观察一下我们这次要用到的数据集import numpy as npimport pandas as pdimport seaborn as snsimport ma

2020-07-25 16:08:20 5075 7

原创 Kaggle实战入门(一)之泰坦尼克号

博主最近开始在Kaggle上做项目,第一个项目就是最经典的项目泰坦尼克号。在尝试了几种模型,调整了很多次之后,终于将模型调到0.8的得分,给大家分享一下我的做法。Part1.数据导入和初步观察导入泰坦尼克号训练集和测试集的数据,这次我选择同时处理两份数据,所以直接将他们拼接起来import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarn

2020-07-16 15:45:53 17117 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除