github 代理_GitHub热榜|5款优质的Python小工具,最后一款真神器!

563f59c20c995b276f711770f1f6ba27.png

有过代码经历的人,GitHub或多或少的都使用过。GitHub是一个面向开源项目的托管平台,因为只支持 Git 作为唯一的版本库格式进行托管,故名 GitHub。目前,其注册用户已经超过350万,托管版本数量也是非常之多,其中不乏知名开源项目Ruby on Rails、jQuery、python等。

今天小编为大家推荐GitHub上5个优质的Python项目,它们分别是:

  • bamboolib
  • faker
  • dabl
  • ProxyPool
  • helium

话不多说,下面分别来介绍一下上述5个GitHub项目。

bamboolib

bamboolib是使得DataFrames数据分析变得更加容易的一款Python库。做数据相关工作的同学,对pandas肯定不会陌生。它很强大,甚至对于很多Python开发者具备着不可替代的位置,但是对于初学者却有时候让人难以理解。

bamboolib使得pandas DataFrames数据分析变得更加简单容易,在以往需要上百行完成的工作,在bamboolib中只需要简短的一行即可。

通过bamboolib的使用,它可以提升你的工作效率,减少在无价值的事情上浪费过多精力。

7bb27169441df9ce5359c54ee1c99eac.png

安装

下面分别是本地、jupyter notebook、jupyterLab中安装的方法

pip install bamboolib
# Jupyter Notebook extensions
python -m bamboolib install_nbextensions
# JupyterLab extensions
python -m bamboolib install_labextensions

faker

faker是一款用于生成伪造数据的Python小工具。造数据,在开发过程中至关重要,尤其是在企业项目中,很多数据会涉及到敏感信息,很难获取到客户数据。这时候,如果要进行功能的开发和测试,就需要自己想办法造数据。

造数据是一件非常令人头疼的事情,如果让你造一条地址信息,可能会脱口而出。那如果让造10000条数据呢?这就是一个即耗脑力,又耗体力的活。

faker就可以一行代码实现数据的生成。它可以根据不同的参数生成不同语言、不同类型的数据。

安装

可以直接使用pip命令进行安装

pip install Faker

生成数据

from faker import Faker
fake = Faker(['it_IT', 'en_US', 'ja_JP'])
for _ in range(10):
    print(fake.name())

# 鈴木 陽一
# Leslie Moreno
# Emma Williams
# 渡辺 裕美子
# Marcantonio Galuppi
# Martha Davis
# Kristen Turner
# 中津川 春香
# Ashley Castillo
# 山田 桃子

dabl

dabl是一款数据分析基准库。这个项目试图使监督机器学习对于初学者变的更容易,并减少见任务的复杂度。例如,利用dabl进行分类的一个示例

import dabl
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
sc = dabl.SimpleClassifier().fit(X_train, y_train)
Running ...
print("Accuracy score", sc.score(X_test, y_test))
Accuracy score 0.9...

就这样简单的几行代码,几秒钟的时间内既可以获得分类结果。

其实,dabl的最大优点并不在于机器学习,而是在于为数据探索提供了简单的接口。下面是一个简单地通过调用plot(X, y)生成的可视化示例:

ad95025e46a2bd9572029d5062a414ec.png

ProxyPool

ProxyPool是一款高效的代理池工具。我们在很多工作场景下会用到代理,例如,一个比较典型的场景:爬虫。通过这些代理,我们可以解决针对不同网站的请求问题,但是,有些代理是收费的,有些是免费的,当需要到用到免费代理时却无从下手。

ProxyPool提供了免费高效的代理池,它具有如下特点:

  • 定时抓取免费代理网站,简易可扩展。
  • 使用 Redis 对代理进行存储并对代理可用性进行排序。
  • 定时测试和筛选,剔除不可用代理,留下可用代理。
  • 提供代理 API,随机取用测试通过的可用代理。

安装依赖包

使用ProxyPool之前首先需要安装依赖包

pip3 install -r requirements.txt

运行代理池

ProxyPool提供Tester、Getter、Server三种方法,可以单独运行,也可以全部运行。全部运行,命令如下

python3 run.py

单独运行,命令如下

python3 run.py --processor getter
python3 run.py --processor tester
python3 run.py --processor server

helium

终于到了本文的重点介绍helium这款神器。

helium是一款基于 Selenium实现的网页自动化工具,它能够解放你的双手,让你实现日常各种网页的使用。

废话不多说,来先看一个示例,应该就明白它到底是干什么用的。

from helium import *
start_chrome('google.com')
write('helium selenium github')
press(ENTER)
click('mherrmann/helium')
go_to('github.com/login')
write('username', into='Username')
write('password', into='Password')
click('Sign in')
kill_browser()

看一下具体的演示,

03d301641be10c854cfd8c11d976325a.gif

启动浏览器、与浏览器交互、查找相关元素、等待元素出现...,其中,较为常用的就是启动浏览器和浏览器交互。

helium能够输入内容、敲击键盘、点击按钮、跳转、关闭等各种我们日常访问网页时常用的操作。也许看到这里很多同学还是认为,这有什么用啊?

举个例子,假如日常的工作就是在网站填写表格或者处理订单等重复性的工作,那么就可以写一个脚本,然后循环同样一个动作,自己就不用动手操作了。

我觉得这个还可以发散一下思维,例如:

  • 批量下载音乐
  • 批量下载电影、电视剧
  • 下载图片
  • 快速填单
  • 便捷访问日常网址

026e80a61f159aded1ab88775d9c7c63.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值