自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(228)
  • 资源 (5)
  • 论坛 (6)
  • 收藏
  • 关注

原创 Ubuntu20.04中安装shutter

这里写自定义目录标题命令行安装其他方式命令行安装sudo add-apt-repository ppa:linuxuprising/shuttersudo apt install shuttersudo apt remove --auto-remove shutter 其他方式github:https://github.com/shutter-project/shuttergithub可以下载源代码安装官网:https://shutter-project.org/带有其他其他多种安

2021-02-26 10:40:56 93

原创 docker 如何删除<none>镜像

在本地制作镜像时,有时会导致原有镜像标签变为。处理方法为使用docker rmi -f docker_id来强行删除镜像。如下:如果需要停止所有有关标签镜像的容器,则可以使用以下命令:docker stop $(docker ps -a | grep "Exited" | awk '{print $1 }')两个命令合二为一,即为:docker rmi-f $(docker images | grep "none" | awk '{print $3}')...

2021-01-22 16:45:45 176 1

原创 No PIL installation found INFO:superset.utils.screenshots:No PIL installation found

pip 安装 superset 有时会出现该问题。No PIL installation found INFO:superset.utils.screenshots:No PIL installation found手动安装pillow即可。pip install pillow

2020-12-11 14:48:27 1170

原创 使用容器与云计算技术快速进行深度学习

最早见于本人山大的一次讲课附带的技术资料,后在多处使用。Docker 是什么?Docker 是一个开源的应用容器引擎,容器不同于虚拟机,更简单的架构使其无需创建臃肿的操作系统就能够创建一个隔离的应用环境。利用Docker我们也就可以快速的部署各类服务,而无需复杂的安装过程。简单来说,当我们在安装Docker之后我们就可以使用一条命令启动一个容器,而容器中已经有了安装好的各种软件。Docker使用显卡:nvidia-docker深度学习计算必须要使用显卡,这就牵扯到了显卡的虚拟化技术。虚拟机本身是无

2020-12-02 15:05:47 190

原创 安装nvidia-docker2

安装nvidia-docker2后,即可在docker中使用GPU,也是在k8s中创建使用GPU的docker的基础,使用kubeflow的技术安装英伟达显卡驱动首先需要操作系统中英伟达显卡驱动的支持有关内容可以参考:Ubuntu18.04 显卡驱动安装 Ubuntu18.04 CUDA与cudnn安装 Ubuntu 18.04 独显和集显切换配置nvidia-docker2源# 添加源curl -s -L https://nvidia.github.io/nvidia-d

2020-12-02 14:57:42 371

原创 pyhanlp 命名实体识别

pyhanlp中的命名实体识别对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:简单的展示例子from pyhanlp import *"""HanLP开启命名实体识别""&quo

2020-09-15 17:25:45 3148 7

转载 淘宝用户行为分析

项目背景以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。数据来源https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1数据介绍列名称说明用户ID整数类型,序列化后的用户ID商品ID整数类型,序列化后的商品ID商品类目ID整数类型,序列化后的商

2020-08-20 17:32:39 1145

原创 自动化机器学习(三)神经网络架构搜索综述(NAS)简述

技术介绍简介自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面三,神级网络结构搜索。自动化机器学习的前两个部分,都有一个特点——只对现在已有的算法进行搜索,而不创造新的算法。一般而言机器学习专家在开发机器学习应用或者构建机器学习模型时,都不太可能从头造轮子,直接创造一个新的算法。但是到了深度神经网路的时候,就发生了一些变化。严格意义上来说,神经网络的基本结构都是固定的,有限的。但

2020-08-20 16:15:56 1152

原创 自动化机器学习(二)自动构建机器学习流水线

文章目录技术介绍核心技术栈实现数据实现类库加载与数据读取参数方法:总结技术介绍自动化机器学习(一)超参数自动优化自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面二,我们将使用TPOT完成自动特征工程与机器学习算法自动选择。在机器学习中,模型本身的参数是可以通过训练数据来获取的,这些参数属于算法的普通参数,通过数据训练获得算法合适的参数,构建强大的模型本身就是机器学习的核心目标

2020-08-20 15:07:43 824

原创 自动化机器学习(一)超参数自动优化技术

文章目录技术介绍核心技术栈项目选择数据基础模型Hyperopt实现数据读取使用lightgbm中的cv方法定义参数空间展示结果贝叶斯优化原理使用lightgbm中的cv方法创建参数搜索空间并调用获取最佳结果继续训练总结参考技术介绍自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面一,如何对超参数进行自动优化。在机器学习中,模型本身的参数是可以通过训练数据来获取的,这些参数属于算法

2020-08-20 15:05:20 1612 3

原创 利用多项式特征生成与递归特征消除解决特征组合与特征选择问题

项目背景无论是对于什么数据都存在两个非常经典的问题:问题一是,数据与标签之间,数据与数据之间的一些实际关系很难搞清楚。有些时候特征A,特征B可能都与标签存在正向关系。然而实际上的关系却可能是标签与特征A,B的乘积存在实际关系;问题二,在不同机器学习的模型中,特征的最佳选择往往并不一致。比如当模型选择为模型model1的时候,特征可能为特征ABC,而当模型变为model2的时候,最佳特征可能就变为了ACD。为了解决这两个问题,有一个比较成熟的自动化方案可供我们使用。那就是多项式特征生成与自动特征选择。这

2020-08-19 19:54:12 375

原创 Applications模块解析(一)
原力计划

文章目录说明官方模型使用与下载存储文件与位置预测完整代码构建新网络特征提取提取任意中间层特征微调神经网络自动输入张量其他推荐前言阅读该文档需要二十分钟,完成后你将会学会使用applications模块的核心功能,并能够使用该模块中与训练模型进行预测,或在对该模块提供的神经网络进行微调,提取任意中间层特征。以下为类库版本:keras 2.3.1keras-applications 1.0.8 keras-base

2020-07-01 10:41:54 343

原创 角点检测——发现图像的特征
原力计划

文章目录写在最前角点检测是什么?有什么用?OpenCV中的角点检测Harris角点检测Shi-Tomasi 角点检测特征检测,从ORB说起写在最后往期文章下载写在最前不知不觉,漫谈计算机视觉也写了四篇了,我们从最基本的除噪引出计算机图形学的各种技术,然后又学会了发现图像的轮廓,发现图像的边缘,等等,但是始终没有接触一个核心的问题——特征。我们肯定经常在数据科学或者人工智能领域不断的听到这个词汇,我们之前做的内容比如轮廓发现,计算轮廓面积周长,发现图像边缘等等其实也都或多或少能够在很多牵扯到图像的领域中用

2020-05-20 11:36:06 1832

原创 图像边缘检测,检测亦或简化
原力计划

上一章节,我们在使用图像轮廓发现的时候使用了图像边缘检测,一次来提高图像轮廓发现的准确率。事实上在计算机的各个领域都有图像边缘检测的身影。边缘检测一大优点就在于可以大幅度减少数据量,并且提出可以认为不相关的信息,保留了图像的结构属性。边缘检测的方法有很多,但是绝大部分都可以分为两大类,第一类是基于搜索,也就是通过寻找图像一阶导数中的最大值和最小值来检测边界,通常是定位在梯度最大的方向。其次是基于零穿越的方法,其通过寻找图像二阶导数零穿越来寻找便捷,通常是Laplacian过零点或者非线性差分表示的过零点。(

2020-05-12 17:02:44 688

原创 发现你的身形——OpenCV图像轮廓
原力计划

OpenCV(三) 图像轮廓上一节最后,我们说过这一次我们就将会讲解真正的OpenCV图像轮廓有关知识。轮廓发现的具体实现有多种方式,不过其的使用在OpenCV中的使用并不困难,不过想用好还需要多点基础知识。这里我们会首先讲一讲OpenCV中的轮廓发现算法,然后再讲一讲其他可以用于轮廓发现的特殊方法。这里我们主要使用了两种来自于opencv官方的图片,第一张是彩色快乐鱼,第二张是水果分尸图不对,...

2020-05-06 23:54:59 466 1

原创 计算机视觉的基石-滤波
原力计划

我在之前的文章中讲了OpenCV中的滤波函数以及专门去模糊化的函数fastNlMeansDenoisingColored讲解了OpenCV的入门。这一次,我们详细讲解OpenCV中的滤波函数,这样我们在学会滤波函数之后,既可以按照上一篇文章的内容进行噪音去除,也可以使用滤波函数进行反向操作—模糊。OpenCV中的滤波类型OpenCV实现了常见的数种滤波函数,同时也支持用户自己编写滤波函数。O...

2020-04-30 00:11:08 322 2

原创 从去除噪点的说起,有OpenCV要什么PS?
原力计划

OpenCV一个出色的开源框架,其中Open指的就是OpenSource,开源。而CV则是计算机视觉(Computer Vision)。依靠OpenCV背后开源社区背书,其不仅在过去实现了绝大多数计算机视觉所需要的基础算法,同时也能跟随时代发展不断更新新的神经网络。我们在之前曾经编写过OpenCV实现人脸识别,为了更好地进行之后技术的发展。我们自然需要对OpenCV进一步学习。今天就是从最基本的...

2020-04-29 16:08:11 755

原创 opencv快速入门人脸检测与人脸识别

让“它”认得你——利用opencv快速入门人脸检测与人脸识别opencv,顾名思义“开源,计算机视觉”。OpenCV就是这样的一个特殊的框架,一群大牛然绕自己的时间,制作了一个开源的计算机视觉框架。借助它我们可以快速的创建计算机视觉的应用。而我们这里将会使用更更加快速的OpenCV-Python,也就是OpenCV的Python接口。假如你已经安装了Python和pip,那么只需简单的执行“p...

2020-04-04 19:06:16 1478 1

原创 人工智能的时代?未来已至?
原力计划

在过去的几年里,高新技术发展似乎方兴未艾。大数据,云计算,人工智能又或者是数据科学,智慧城市,无人驾驶,无数崭新的名词不断地冲击着我们。或许不远了。而实际上它们早已经悄悄地改变了我们。下面几个故事将告诉我们,曾经难以想象的未来是如何一步一步走进我们的生活的。给奶爸一瓶啤酒第一个故事是啤酒和尿布的故事。在普通人眼里这或许是两个并不怎么相关的事物,但是对于全球零售巨头沃尔玛而言,它们却有着非凡的...

2020-03-20 15:07:51 363

原创 Ubuntu18.04 显卡驱动安装

更新阿里源Ubutnu安装后的第一件事是找到Software & Updates,将源更新为阿里云的源 。这样可以帮助我们减少很多麻烦。之后,到第二页选择Other Software勾选Canonical Partners。之后进行手动更新sudo apt updatesudo apt upgrade安装NVIDIA社区版驱动1. nouvean首先查看nouvean...

2020-02-12 17:32:27 2088

原创 Ubuntu18.04 CUDA与cudnn安装

cuda版本的选择CUDA与cudnn有多种安装方式,目前搜索cuda下载默认打开的是10.2:https://developer.nvidia.com/cuda-downloads进入连接,按照要求选择。本人使用的是1070,Ubuntu18.04,驱动为440.59,因此这里直接选择了10.2,如果你不是请参开该网址以下两个网址https://developer.nvidia.com/...

2020-02-12 17:21:56 618

转载 linux下gcc、g++不同版本的安装和切换

Ubuntu 18.04预装GCC版本为7.3,但有时在编译是需要用的不同gcc版本,下面介绍,如何安装不同的gcc 和g++,并设置根据不同的需要在不同版本之间切换。1. 可以通过如下命令查看当前安装的版本:ll /usr/bin/gcc*2. 安装gcc-4.8 和gcc-5:sudo apt install gcc-4.8 gcc-4.8-multilib g++-4.8 g++-...

2020-02-12 15:12:18 1449

原创 Ubuntu 18.04 独显和集显切换

Ubuntu 18.04 独显和集显切换查看自己的显卡ubuntu-drivers devices #查看自己的显卡及可以安装的驱动版本== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==modalias : pci:v000010DEd00001BA1sv00001558sd000067C1bc03sc00i00vendo...

2020-02-12 15:04:18 5444 3

原创 QEMU入门指南

QEMU本文分为三个部分,第一部分主要介绍了qemu是什么,给人一个基本印象。第二部分重点介绍其安装。第三部分介绍其架构,这对我们的进一步使用有比较大的好处。什么是QEMUQEMU是一种通用的开源计算机仿真器和虚拟器。QEMU共有两种操作模式全系统仿真:能够在任意支持的架构上为任何机器运行一个完整的操作系统用户模式仿真:能够在任意支持的架构上为另一个Linux/BSD运行程序...

2020-02-03 16:10:22 3670

转载 一文读懂QEMU虚拟机

Qemu 架构Qemu 是纯软件实现的虚拟化模拟器,几乎可以模拟任何硬件设备,我们最熟悉的就是能够模拟一台能够独立运行操作系统的虚拟机,虚拟机认为自己和硬件打交道,但其实是和 Qemu 模拟出来的硬件打交道,Qemu 将这些指令转译给真正的硬件。正因为 Qemu 是纯软件实现的,所有的指令都要经 Qemu 过一手,性能非常低,所以,在生产环境中,大多数的做法都是配合 KVM 来完成虚拟化工...

2020-01-10 14:57:01 647

翻译 PyTorch 深度学习: 60 分钟极速入门

PyTorch 深度学习: 60 分钟极速入门2019年年初,ApacheCN组织志愿者翻译了PyTorch1.2版本中文文档(github地址),同时也获得了PyTorch官方授权,我相信已经有许多人在中文文档官网上看到了。不过目前校对还缺人手,希望大家踊跃参与。之前一段时间我们和PyTorch的有关负责人Bruce Lin一直在进行邮件交流。在之后适当的时候,我们会组织志愿者进行其他有关Py...

2019-11-15 13:28:28 455

翻译 使用PyTorch训练图像分类器

训练分类器译者:bat67校对者:FontTian目前为止,我们以及看到了如何定义网络,计算损失,并更新网络的权重。所以你现在可能会想,数据应该怎么办呢?通常来说,当必须处理图像、文本、音频或视频数据时,可以使用python标准库将数据加载到numpy数组里。然后将这个数组转化成torch.*Tensor。对于图片,有Pillow,OpenCV等包可以使用对于音频,有scipy...

2019-11-15 13:02:43 513

原创 You must provide a username via either --os-username or env[OS_USERNAME]

在安装好openstack之后,使用上传镜像命令进行镜像的上传,但是这时候报了"You must provide a username via either --os-username or env[OS_USERNAME]"的错误.解决办法 在root用户下执行如下命令source keystonerc_admin此命令表示以admin用户登录查看,如果要以其他用户查看就执行sour...

2019-08-31 12:40:53 2986

翻译 使用PyTorch创建神经网络

2019年年初,ApacheCN组织志愿者翻译了PyTorch1.0版本中文文档(github地址),同时也获得了PyTorch官方授权,我相信已经有许多人在中文文档官网上看到了。不过目前校对还缺人手,希望大家踊跃参与。之前一段时间我们和PyTorch的有关负责人Bruce Lin一直在进行邮件交流。在之后适当的时候,我们会组织志愿者进行其他有关PyTorch的项目,欢迎大家加入我们,关注我们。更...

2019-08-10 10:28:45 977

翻译 Autograd:自动求导

2019年年初,ApacheCN组织志愿者翻译了PyTorch1.0版本中文文档(github地址),同时也获得了PyTorch官方授权,我相信已经有许多人在中文文档官网上看到了。不过目前校对还缺人手,希望大家踊跃参与。之前一段时间我们和PyTorch的有关负责人Bruce Lin一直在进行邮件交流。在之后适当的时候,我们会组织志愿者进行其他有关PyTorch的项目,欢迎大家加入我们,关注我们。更...

2019-08-10 10:02:03 686 1

翻译 什么是PyTorch?

2019年年初,ApacheCN组织志愿者翻译了PyTorch1.0版本中文文档(github地址),同时也获得了PyTorch官方授权,我相信已经有许多人在中文文档官网上看到了。不过目前校对还缺人手,希望大家踊跃参与。之前一段时间我们和PyTorch的有关负责人Bruce Lin一直在进行邮件交流。在之后适当的时候,我们会组织志愿者进行其他有关PyTorch的项目,欢迎大家加入我们,关注我们。更...

2019-08-10 09:57:58 301 1

转载 jupyter notebook常用快捷键

阅读目录命令模式(按ESC启动) 编辑模式(按Enter启动)Jupyter Notebook 的快捷键使用前需要进行安装:pip install jupyter(前提是你已经安装好Python,并将python添加到环境解释器中)安装完成之后,因为python已经添加至环境变量中,所以直接使用jupyter notebook即可启动,如果你想要打开ipynb结尾的文件...

2019-07-11 16:49:53 464

原创 虚拟机 centos 6.5 扩展根目录分区大小

要想扩充虚拟机centos 空间,必须先扩充虚拟机本身物理空间.本文只描述如何增加centos系统的根目录空间。以下内容,需要输入命令以红色标出,关键输出内容以蓝色标出。1 查看磁盘情况首先登陆root用户,然后使用#fdisk -l查看系统磁盘会出现以下信息:Device Boot Start End Blocks Id System/dev/sda1 * 1 64 51200...

2019-07-02 16:03:24 2074 1

原创 Maximal Information Coefficient (MIC)最大互信息系数详解与实现

MICMIC 即:Maximal Information Coefficient 最大互信息系数。使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度。MIC是一种优秀的数据关联性的计算方式。本篇文章将会详细介绍MIC的算法原理,优缺点以及Python的具体实现方式,并给出一个可视化方案。互信息?互信息(Mut...

2018-12-23 22:32:43 18078 21

原创 Hyperopt 入门指南

Hyperopt:是进行超参数优化的一个类库。有了它我们就可以拜托手动调参的烦恼,并且往往能够在相对较短的时间内获取原优于手动调参的最终结果。一般而言,使用hyperopt的方式的过程可以总结为:用于最小化的目标函数搜索空间存储搜索过程中所有点组合以及效果的方法要使用的搜索算法目标函数一个简单的例子这里是一个简单的例子,用来展示函数问题from hyperopt import...

2018-12-19 16:30:27 6567 5

原创 Hive 快速上手

Hive 快速上手本文旨在快速学习或者回顾hive常用知识,阅读本文档需要二十分钟,完成后你将上手hive。

2018-12-19 09:46:22 409

原创 Lightgbm with Hyperopt

如何使用hyperopt对Lightgbm进行自动调参之前的教程以及介绍过如何使用hyperopt对xgboost进行调参,并且已经说明了,该代码模板可以十分轻松的转移到lightgbm,或者catboost上。而本篇教程就是对原模板的一次歉意,前半部分为教程-如何使用hyperopt对xgboost进行自动调参的迁移,后半部分是对在Hyperopt框架下使用XGboost与交叉验证的迁移。关...

2018-12-18 12:49:39 2556 10

原创 在Python中使用lightgbm

前言-lightgbm是什么?LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的, 装逼的, 它具有以下优势:速度和内存使用的优化减少分割增益的计算量通过直方图的相减来进行进一步的加速减少内存的使用 减少并行学习的通信代价稀疏优化准确率的优化Leaf-wise (Best-first) 的决策树生长策略类别特征值的...

2018-12-17 15:22:10 7495

原创 在Python中使用XGBoost

本文原是xgboost的官方文档教程,但是鉴于其中部分内容叙述不清,部分内容也确实存在一定的问题,所以本人重写了该部分。数据请前往Github此处下载前置代码引用类库,添加需要的函数import numpy as npfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport panda...

2018-12-17 11:22:21 3658 1

原创 在Hyperopt框架下使用XGboost与交叉验证

Xgboost中内置了交叉验证,如果我们需要在Hyperopt中使用交叉验证的话,只需要直接调用即可。前边我们依旧采用第一篇教程使用过的代码。如果你已经看过前一篇文章,那么我建议你直接跳到交叉验证部分。

2018-12-17 10:33:47 2129 5

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

2020AI开发者大会PPT

发表于 2020-08-04 最后回复 2020-08-04

VIP会员无法兑换?

发表于 2020-06-20 最后回复 2020-06-20

博客审核未通过:包含非IT技术有关内容?

发表于 2019-12-26 最后回复 2019-12-27

恢复删除的博客

发表于 2019-01-11 最后回复 2019-01-24

博客头像上怎么突然多了个王冠,什么意思?

发表于 2018-11-26 最后回复 2018-11-26

为什么准专家勋章看不到呢?

发表于 2018-10-23 最后回复 2018-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除