![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 95
secsilm
NLP 和 Python 开发者,正在学习 C++。GitHub:github.com/secsilm,知乎:zhihu.com/people/lyjwf1216
展开
-
NLP 中的通用数据增强方法及针对 NER 的变种
本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP,大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法,关于后者,重点介绍了基于 mixup 改进的 SeqMix 方法。此外,本文较长,建议结合目录食用。通用数据增强方法阅读 Tip:每个增强方法最后的有序列表是提出或使用该方法的论文列表。L原创 2021-10-04 10:14:14 · 1573 阅读 · 0 评论 -
试用开源标注平台 Label Studio
数据标注是人工智能背后的女人。—— 我说的初探在 reddit 上看到一个人提了一个问题:What is your favourite (free) labelling tool?,你最喜欢的(免费)标注工具是什么。由于我一直关注标注工具,而且没找到好用、漂亮的标注工具(甚至一度计划自己做一个),也认为这块很重要,所以就点进去看了下。收获不少,帖子楼主提到的 Prodigy,我点进去看了看...原创 2020-11-10 16:14:30 · 5196 阅读 · 10 评论 -
使用 plotly 绘制 Choropleth 地图
本文将通过绘制中国省级 Choropleth 地图来解释如何使用 plotly 绘制 Choropleth 地图,主要有两种方法:底层 API plotly.graph_objects.Choroplethmapbox 和高层 API plotly.express.choropleth_mapbox,数据是 COVID-19 在某一天的疫情数据。什么是 Choropleth 地图Chorop...原创 2020-02-27 20:24:39 · 11279 阅读 · 12 评论 -
【Python】解决使用 plt.savefig 保存图片时一片空白
问题当使用如下代码保存使用plt.savefig 保存生成的图片时,结果打开生成的图片确实一片空白。import matplotlib.pyplot as plt""" 一些画图代码 """plt.show()plt.savefig("filename.png")原因其实产生这个现象的原因很简单:在plt.show() 后调用了plt.savefig() ,在plt.show() 后实际上已经创建原创 2016-10-24 15:52:08 · 346645 阅读 · 40 评论 -
奇异值分解 SVD 的数学解释
奇异值分解(Singular Value Decomposition,SVD)是一种矩阵分解(Matrix Decomposition)的方法。除此之外,矩阵分解还有很多方法,例如特征分解(Eigendecomposition)、LU分解(LU decomposition)、QR分解(QR decomposition)和极分解(Polar decomposition)等。这篇文章主要说下奇异值分解,原创 2017-03-29 12:33:19 · 46499 阅读 · 12 评论 -
有点坑的 np.array_split
假如我们想要把一个 array-like 的东西拆分成多个小组(或者叫 bucket),给定组的数目或者组的大小,最后一组不足则保持原样。那么我们想到的可能是 np.array_split() 函数。我们使用其官方例子来说明一下。例子 1:把一个含有 8 个元素的列表拆分成 3 组,那么 np.array_split() 的结果是:>>> x = np.arange(8....原创 2019-07-17 15:38:48 · 1928 阅读 · 0 评论 -
理解主成分分析
译者注:本文翻译自 Rishav Kumar 于 2019 年 1 月 2 日发表的文章 Understanding Principal Component Analysis文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明「译者注」),否则为原文中本来就有的话文中的「我」均指原作者 Rishav Kumar目录保留英文原文本人水平有限,如有错误欢迎指出能力...翻译 2019-04-20 15:10:38 · 587 阅读 · 0 评论 -
Plotly 初步
写在前面如果图形和文字显示有异常,请前去我的个人小站:Plotly 初步 · Lee’s Space Station 查看,体验更好。简介Plotly 是一个用于绘制交互式图表的工具库,基于 React 和 Flask,基本功能免费,可以在 Jupyter Notebook 上进行在线或者离线绘图,支持 Python、MATLAB 和 R 等许多语言,其同类产品(Python 领域)是 bo...原创 2020-10-20 15:45:42 · 2373 阅读 · 0 评论 -
2017 Python 问卷调查结果初步分析
Note:本文在我的个人站点同步发布:2017 Python 问卷调查结果初步分析 · Lee’s Space Station,无广告,体验更好。 未经授权,禁止转载。前言2017 年末,PSF(Python Software Foundation,Python 软件基金会)和 JetBrains 一起进行了一次全球范围内的关于 Python 使用情况的问卷调查,共有来自 1...原创 2018-04-29 14:48:02 · 8585 阅读 · 2 评论 -
Python NumPy 基础
前言这两天读完《利用Python进行数据分析》 这本书的第4章:NumPy 基础:数组和矢量计算 后,在进行下一步阅读高级应用前,先整理本章内容,做个笔记备查,也好加深印象。在往下看前请确保你已经安装了NumPy 库,并且已经使用 import numpy as np 加载numpy库。如果 还没有安装,那么可以在cmd(windows下)中使用 pip install numpy 命令安装,...原创 2016-04-03 16:50:10 · 5771 阅读 · 2 评论 -
【Python】Pandas 的 apply 函数使用示例
apply 是 pandas 库的一个很重要的函数,多和 groupby 函数一起用,也可以直接用于 DataFrame 和 Series 对象。主要用于数据聚合运算,可以很方便的对分组进行现有的运算和自定义的运算。数据集使用的数据集是美国人口普查的数据,可以从这里下载,里面包含了CSV数据文件和PDF说明文件,说明文件里解释了每个变量的意义。数据大致是这个样子:美...原创 2016-11-03 11:25:42 · 96025 阅读 · 1 评论 -
使用集成学习提升机器学习算法性能
使用集成学习提升机器学习算法性能 这篇文章是对 PythonWeekly 推荐的一篇讲集成模型的文章的翻译,原文为 Ensemble Learning to Improve Machine Learning Results,由 Vadim Smolyakov 于 2017 年 8 月 22 日发表在 Medium 上,Vadim Smolyakov 是一名 MIT 的研究生,对数据科学和机器学习翻译 2017-08-30 18:47:18 · 8367 阅读 · 1 评论 -
XGBoost 在 Windows 10 和 Ubuntu 上的安装
关于什么是 XGBoost,我在这里不再解释,如果有时间的话再写一篇文章来解释,在数据科学里非常有用。大家可以参考 Tianqi Chen 的论文 XGBoost: A Scalable Tree Boosting System ,本篇文章只是在 Windows 上安装 XGBoost 的 Python 包的方法。官网官网 介绍的方法是从 GitHub 编译安装,但是在我的机器上没有成功,pip 同原创 2017-05-18 10:58:31 · 2330 阅读 · 1 评论 -
【Python】Numpy 中的 shuffle VS permutation
有时候我们会有随机打乱一个数组的需求,例如训练时随机打乱样本,我们可以使用 numpy.random.shuffle() 或者 numpy.random.permutation() 来完成。这两者非常相似,实现的功能是一样的,那么他们到底有什么区别?本文代码及图片可以在 我的GitHub 找到。参数区别以下 numpy.random.shuffle() 简称 shuffle,numpy.random原创 2017-06-17 23:28:21 · 22977 阅读 · 4 评论