这 5 款 Python 数据科学工具至少提效提升20%!

目前数据科学领域正在突飞猛进地发展,易于使用和开箱即用的 Python 数据科学库在不断地脱颖而出。

在这篇文章中,我将介绍五个这样的库,他们加快传数据科学地的进程,从而降低进入初学者的门槛,具体如下:

  • Dabl
  • Emot
  • Flashtext
  • SweetViz
  • Numerizer

1、Dabl(数据分析基线库)

Dabl 是由 Andreas Mueller 创建的,它的理念是使初学者更容易学习机器学习,并降低常见任务的门槛。

安装
pip install dabl
使用

作为典型的机器学习管道的一部分,Dabl 可用于数据集的自动预处理、快速 EDA 以及初始模型构建。让我们用泰坦尼克号数据集来演示此库的一些用例。

我们将从导入库和数据集开始。

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()

在这里插入图片描述

使用 dabl 进行探索性数据分析

dabl 提供了一个高级接口,它只需要一行代码就可以制作出精美的可视化图形,有助于进行数据探索。

dabl.plot(titanic_df, target_col="Survived")

在这里插入图片描述

2、Emot

Emot 是 Python 的表情符号和表情检测包。当我们需要进行预处理文本数据,以消除表情符号和表情符号,它是真正的方便。

安装
pip install Emot
使用

让我们看看几个字符串包含表情符号和表情符号。我们将使用 Emot 将这些表情符号转换为文本。

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)

在这里插入图片描述

3、Flastext

Flastext 是一个 Python 包,允许从句子中提取关键字或替换句子中的关键字。它基于FlashText 算法,比 NLP 任务的正则表达式快得多。

安装
pip install Flastext
使用

数据集来自以前的 Kaggle 竞赛:Real or Not? NLP with Disaster Tweets,其目标是创建一个机器学习模型,以预测推文是否属于灾难类别。

让我们导入库和数据集,并快速查看数据。

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

让我们创建训练集中所有推文的语料库

corpus = ', '.join(twitter_df.text)
corpus[:1000]

Flastext 可以非常方便的使用如下两个功能:

  • 提取关键词/搜索语料库中的单词
  • 替换文本文档中的单词

让我们计算一下 flood 这个词出现在语料库中多少次?

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

我们还可以很容易地替换文档中的单词。让我们使用库替换单词的所有匹配项。

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

4、Sweetviz

Sweetviz 是一个开源 Python 库,它生成美观的高密度可视化效果,通过单个代码行启动 EDA(探索性数据分析)。输出是一个完全自包含的 HTML 应用程序。

库可以对以下任务执行快速分析:

  • 目标分析
  • 可视化和比较
  • 混合类型关联
  • 类型推理:通过可选的手动覆盖自动检测数字、分类和文本功能等等

让我们通过泰坦尼克号数据集来演示

安装
pip install sweetviz
使用

Sweetviz 具有一个名为 Analyze() 的函数,该函数分析整个数据集并提供包含可视化效果的详细报告。

5、Numerizer

Numerizer 是用于将自然语言数字转换为 int 和浮点的 Python 模块。它在预处理文本数据时非常有用。

安装
pip install numerizer
使用

我们将使用 Numerizer 将文本数字转换为数字

在这里插入图片描述

结论

这些是我最近遇到的数据科学的一些有趣和有用的 python 库。这些库正在取代现有的库。最终目标是增强和优化数据科学的过程,降低初学者的门槛。

技术交流

欢迎转载、收藏本文,码字不易,有所收获点赞支持一下!

为方便进行学习交流,本号开通了技术交流群,添加方式如下:

直接添加小助手微信号:pythoner666,备注:CSDN+python,或者按照如下方式添加均可!
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值