DataCastle

DataCastle — 专业的大数据竞赛平台 http://pkbigdata.com/

python爬虫,学习路径拆解及资源推荐

数据是决策的原材料,高质量的数据价值不菲,如何挖掘原材料成为互联网时代的先驱,掌握信息的源头,就能比别人更快一步。大数据时代,互联网成为大量信息的载体,机械的复制粘贴不再实用,不仅耗时费力还极易出错,这时爬虫的出现解放了大家的双手,以其高速爬行、定向抓取资源的能力获得了大家的青睐。 爬虫变得越来...

2019-04-03 17:33:38

阅读数 204

评论数 0

Python数据分析,学习路径拆解及资源推荐(附详细思维导图)

关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单、教程、以及学习的先后顺序;另一类是提供具体的学习内容,知识点或实际案例。 但很多繁琐而又杂乱的内容,除了给初学者增加理解和认识的噪音外,真正能够起到明确的方向指引导的,确实不多。以至于很多...

2019-03-06 13:46:05

阅读数 370

评论数 1

6个策略处理不平衡数据

数据不平衡问题被认为是数据挖掘和机器学习领域的主要问题之一,因为大多数机器学习算法假设数据是均匀分布的。 在数据不平衡的情况下,多数类主导少数类,机器学习分类器会更偏向于多数类。 这导致少数群体的分类不良,分类器甚至可以将所有测试数据预测为多数类。 在这篇文章当中你可以获得7种处理不平衡数据...

2019-01-11 10:09:26

阅读数 269

评论数 0

99%的人都不知道的Python整理文件方法,效率提升100倍

    现在人们经常要去下载或者接收一些文件。 比如说同事传来的文档,自己建立的文件,想看的电影等等,那大家都会怎么处理这些文件呢? 科研工作者、学生们可能需要阅读大量的文献,我们也需要阅读很多的电子书等等,这些文件你又是如何处理的呢? 是一一归类好,还是堆在一个文件夹里就算了? ...

2019-01-08 15:03:55

阅读数 202

评论数 0

初识LightGBM

上篇了解了如今最火的框架之一xgboost,接下来看下另一款和它一样令人惊艳的框架lightgbm。 起源 LightGBM全称为Light Gradient Boosting Machine ,由微软开源,一个基于决策树,并且具有快速、分布式、高性能特点的梯度提升框架。它可被用于排行、分类...

2019-01-08 09:49:15

阅读数 152

评论数 0

初识xgboost

经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山,几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是为什们呢?那么就来窥探一下它的庐山真面目吧。 起源 xgboost 的全称是 eXtreme Gradient Boost...

2019-01-04 14:11:26

阅读数 288

评论数 0

模型过拟合与欠拟合

机器学习中,经常讨论到的一个话题就是泛化能力。泛化能力的强弱决定了模型的好坏,而影响泛化能力的则是模型的拟合问题。 欠拟合 机器学习的目的并不是为了对训练集的做出正确的预测,而是对没有在训练集中出现的数据进行正确的预测。但是对训练集之外的数据预测的前提是,模型在训练集上的表现很好,基本可以满...

2018-12-28 14:06:16

阅读数 129

评论数 0

NLP资源清单

  NLP全称是Natural Language Processing的简称,也叫自然语言处理,属于AI的一个分支,这是一个比较难的分支,但是不用怕,拥有有效资源并步步积累,相信你一定会成为nlp达人。   ◆  ◆  ◆优  秀  书  单   自然语言处理综论 Daniel Jur...

2018-12-27 09:26:00

阅读数 101

评论数 0

离散型特征的处理方法

机器学习中,常常在数据集中会遇到一些离散特征,对于这些离散特征相比连续特征要用不同的处理方法,常见的方法有LabelEncoder与OneHotEncoder。 LabelEncoder LabelEncoder用来对离散型分类型特征值进行编码,可以对本文编码,也可以对数字编码。sklear...

2018-12-25 09:45:07

阅读数 423

评论数 0

数据标准化的方法

机器学习中,最重要的就是数据预处理了。而当不同特征之间的值差距较大,分布很离散,那么可能就需要统一这些数据的量纲,以便后期的处理。所以,今天带来的是一些数据标准化处理的方法。 主要的标准化方法先列出如下: StandardScaler MinMaxScaler MaxAbsScaler ...

2018-12-21 15:33:30

阅读数 259

评论数 0

分类结果的评估方法

模型评估可以用在模型类型、调节参数及特征组合中。通过模型评估来估计训练得到的模型对于非样本数据的泛化能力,并且还需要恰当的模型评估度量手段来衡量模型的性能表现。 通常在回归问题可以采用平均绝对误差(Mean Absolute Error)、均方误差(Mean Squared Error)、均方根...

2018-12-19 10:02:47

阅读数 250

评论数 0

学习朴素贝叶斯算法的5个简单步骤

  贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。 而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。 本文将通过6个步骤带领你学习朴素贝叶斯算法。   Step1 什么是朴素贝叶斯算法? 朴素贝叶斯算法是一种基于贝叶斯定理的分类技术,...

2018-12-19 09:17:31

阅读数 388

评论数 0

机器学习:训练集与测试集的划分

机器学习中有一个问题是不可避免的,那就是划分测试集和训练集。为什么要这么做呢,当然是提高模型的泛化能力,防止出现过拟合,并且可以寻找最优调节参数。训练集用于训练模型,测试集则是对训练好的模型进行评估的数据集。通常来说,训练集和测试集是不会有交集的,常用的数据集划分方法有以下两种: 留出法 k...

2018-12-17 15:53:36

阅读数 563

评论数 0

python 文本分析

自从认识了python这门语言,所有的事情好像变得容易了,作为小白,逗汁儿今天就为大家总结一下python的文本处理的一些小方法。 话不多说,代码撸起来。 ——python大小写字符互换 在进行大小写互换时,常用到的方法有4种,upper()、lower()、capitalize() 和ti...

2018-12-17 11:42:00

阅读数 694

评论数 0

python微信聊天机器人

上回逗汁儿的朋友豆苗为了哄女朋友开心,爬了一堆的笑话让我来给处理一下,今天这货又来找我了,真是无事不登三宝殿啊,事情是这样的。 豆苗:逗汁儿啊,上次你的方法很不错,让我节约了很多时间,为了感谢你,请你吃个饭啊。 逗汁儿:算你有良心。 吃饭ing 豆苗:那个,逗汁儿啊,其实还有一事相求啊。 ...

2018-12-14 16:10:13

阅读数 304

评论数 0

Numpy中构造数据的random类

在日常工作中,当遇到一个问题时,总是先简化它,寻找某一种方法来解决它。如果不使用原数据集,就需要构造数据来验证该方法。大家应该也知道numpy中random类有很多方法可以构造数据,但是当谈论到具体某一种方法的详细说明可能就会含糊不清了,今天就带大家复习下这些方法。 先把这些方法一一列出,方便...

2018-12-12 17:29:11

阅读数 64

评论数 0

十分钟学习正则表达式|上手python re模块

请给我10分钟,我有把握让你10分钟上手正则表达式。 用一句通俗的语言解释:正则表达式就是记录文本规则的代码。 正则表达式之所以难学,是因为它有大量的符号,每个符号的意义和用法又是不一样的,但是只要掌握了用法,正则表达式也可以很友好。 本文中所有的代码都在python的re模块下运行。  ...

2018-12-12 14:47:20

阅读数 79

评论数 0

关联规则挖掘

关联规则是数据挖掘中的一个重要分支,其主要研究目的是从各种数据集中发现模式,相关性,关联或因果结构。 关联规则有形如X→YX→Y 的蕴含表达式,其中X和Y是不相交的项集,即X∩Y=∅X∩Y=∅。   关联规则的三个指标   ·Support(支持度) 表示同时包含A和B的事务占所有事务...

2018-12-10 17:45:59

阅读数 110

评论数 0

Numpy的排序功能

今天介绍的是numpy中排序的一些函数,如下所示: numpy.sort(ndarray.sort与之类似) numpy.sort_complex numpy.argsort numpy.lexsort numpy.searchsorted numpy.sort() 看一下官方...

2018-12-10 16:53:54

阅读数 83

评论数 0

爬虫之字体反爬(三)汽车之家

今天为大家带来的是字体反爬的另一个案例,汽车之家。与之前不同的是,这里是对汉字的处理。具体来看下面的分析与代码。 首先参考的网站:https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23 从...

2018-12-07 17:59:47

阅读数 296

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭