kiligso-CSDN博客

原创 Python爬虫实例：Scrapy爬取股票信息到SQL数据库

今天给大家分享一个之前完成的爬虫实例，利用Scrapy库和docker爬取股票信息。这个案例的目标是爬取股票的信息并存放到SQL Server当中。这应该算是爬虫入门必学的案例了，话不多说，直接上干货。首先看一下我们今天要用到的库和工具：from scrapy import Spider, Requestfrom scrapy_splash import SplashRequestimport scrapyimport refrom getStock.items import Getstoc

2020-09-21 19:46:43 2015 1

原创 Kaggle实战入门（四）之Cat-In-The-Dat-ii

第四个项目比较简单和有趣，因为它的数据集全部都是分类型特征，在这种情况下，我们又应该怎么做呢。在这里给大家分享一个比较好用的模型catboost和对分类型特征处理的编码方式TargetEncoder。在这个项目中可以方便快捷的对数据进行处理和建模。Part1.数据导入import numpy as npimport pandas as pdimport osfrom sklearn.exceptions import ConvergenceWarningimport warningswarn

2020-09-21 00:12:20 1264

原创 Kaggle实战入门（三）之纽约出租车价格预测New-York-City-Taxi-Fare-Prediction

今天给大家分享第三个kaggle竞赛项目，纽约出租车价格预测New-York-City-Taxi-Fare-Prediction。这个项目的特点是给到我们的数据集比较大，有5.3G，数据总量是5400W行。不过我们在做这个项目的时候并不需要这么多的数据量，下面我们就一起来看一下这个项目。Part1.数据导入和初步分析首先导入我们的数据集，由于数据量过大，我们只导入前500W行的数据进行建模。import numpy as npimport pandas as pdimport matplotlib

2020-09-20 23:23:37 4699 8

原创 Kaggle实战入门（二）之房价预测Housing Prices Competition

这是博主第二个kaggle项目，Housing Prices Competition。这个项目是基于波士顿房价改编的数据集对房子的价格进行预测。虽然是基于波士顿房价数据集，但改编过后有着80多个数据特征，还是有一定难度的。下面给大家分享一下我的做法把，同样地在kaggle上排到了前10%的成绩。Part1.数据导入和初步分析先来初步观察一下我们这次要用到的数据集import numpy as npimport pandas as pdimport seaborn as snsimport ma

2020-07-25 16:08:20 5500 7

原创 Kaggle实战入门（一）之泰坦尼克号

博主最近开始在Kaggle上做项目，第一个项目就是最经典的项目泰坦尼克号。在尝试了几种模型，调整了很多次之后，终于将模型调到0.8的得分，给大家分享一下我的做法。Part1.数据导入和初步观察导入泰坦尼克号训练集和测试集的数据，这次我选择同时处理两份数据，所以直接将他们拼接起来import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarn

2020-07-16 15:45:53 18411 8

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人