2018年12月_lawenliu

12月 11月 10月 03月 02月

原创几种查看Linux进程路径的方法

当一个team协同开发的时候，难免会使用同一台服务器，特别是使用GPU机器训练模型的时候。当你想使用GPU，但是机器被占用了，改怎么办，你可以找占用GPU的同学问问啥时候跑完，你好去排个队（当然公司有自动训练任务管理平台的就把任务管理交给平台开发的同学就行）。那我们先看看常用的几种查看几种的方法：top, htop, glance。1. top命令这个是Linux上自带的，很好用，基本能满......

2018-12-29 18:29:44 41695

原创设置VIM默认格式

在不同机器上打开VIM的时候，发现VIM竟然没有自动换行对齐，感觉有点不方便。可以配置下VIM。在命令行里输入命令创建或者打开VIM配置文件vim ~/.vimrc然后输入常用的需要用的命令，然后保存，这个每次启动VIM都会自动配置。当然你也可以在VIM里面按“:”之后输入如下命令，但是下次启动之后设置就会丢失了。syntax enable "自动检测语法syntax on...

2018-12-22 11:11:13 1509

原创 2.1 CIFAR 100数据集及代码

1. 数据集地址：http://www.cs.toronto.edu/~kriz/cifar.html用Foreign VPN下载速度更快点。2. 代码地址：https://github.com/tensorflow/models在tutorials/image/cifar10目录下。3. 代码对应的文档：https://www.tensorflow.org/tutorials/...

2018-12-20 20:23:04 1322 1

原创 Gradle sync failed: No toolchains found in the NDK toolchains folder for ABI with prefix: mips64el-l

这个error是因为找不到NDK造成的，你程序里面用了NDK，但是找不到NDK的路径。解决方法，如果你没有NDK，可以下载NDK：https://developer.android.google.cn/ndk/downloads/我这里下载的不用安装，直接解压之后放到你和android studio的SDK路径一级就行了。然后点击：File->Project Structure.......

2018-12-20 17:06:13 1410

原创 1.2 基于两层CNN的MNIST解法

参考《21个项目玩转深度学习》，感觉还不错的书，建议大家看一下。使用卷积神经网络可以把MNIST手写字符的识别率提高到99%以上，听起来还是很厉害的。这里使用常规的CNN的解题方式：卷积->激活->池化。也算是卷积层标配了。#/usr/bin/python#encoding: utf-8import osimport tensorflow as tffrom t...

2018-12-20 16:42:27 300

原创 TensorFlow 管理GPU

项目开发中，发现pytorch对显存管理真的是很差，一不小心就会OOM了，感觉好坑，而且会强行分配，造成显存卡住，python处于假死状态，即使你有supervisor监控也没有用。（当然这种情况需要基于内容的监控来解决假死问题，Ping Test + XPing Test）TensorFlow对显存的管理相对于pytorch要好很多，支持几种不同的显存管理方法。1. 我用的NVIDIA的...

2018-12-19 21:37:01 318

原创基于Selenium的爬虫

使用Selenium可以用来做CI/CD监控网页的活动情况，同时也能够用来爬数据。下面介绍一下如何用Selenium爬数据，我这里使用Firefox的Selenium类似的插件来生成Selenium代码。1. 安装并打开Firefox，然后点击右上角的设置菜单下面的“附加组件”，打开附加组件页面2. 然后输入“Katalon Recorder”，这里没有用“Selenium IDE”，“S...

2018-12-14 13:11:10 1852

原创查看python 版本及安装路径

1. 查看版本Windows下查看python 版本与Linux查看python版本方法一致，在命令行下输入：python --version2. 查看安装路径Windows 下查看python安装路径，在命令行输入：where pythonLinux下查看当前python安装路径，在命令行输入：whichis python或者查看所有python......

2018-12-13 20:03:58 4717 2

原创 1. 初探MNIST实例-Softmax线性分类器

由于国外的网站需要翻墙才能拿到，国内的同学可以到这里下载数据：http://yann.lecun.com/exdb/mnist/注意下载下来的数据千万不要解压，demo读的就是gz压缩包。mnist数据是一批人工写的手写0~9数字的数据集。一般用作机器学习的初学者的第一个实验，相当于编程时的Hello World测试程序。可以参考极客的解析：http://wiki.jikexueyua...

2018-12-11 12:26:07 846

转载 The 50 Best Public Datasets for Machine Learning (Data Driven Investor)

转自：https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279First, a couple of pointers to keep in mind when searching for datasets. According to Carnegie M...

2018-12-08 18:14:41 783

原创自然语言处理数据集-20个

用于情感分析的数据集1.Multidomain sentiment analysis dataset: 来自亚马孙的稍微老点的数据集，主要是是对产品评价的情况分析2.IMDB reviews: 比较老一点的小数据集，包含了25000个电影的评价，主要用于情感二分类问题3.Stanford Sentiment Treebank: Stanford的标注的情感分析数据4.Sen......

2018-12-08 18:08:16 6112

原创语音相关的数据集-5个数据集

1.2000 HUB5 English: 从40个电话对话抽取的英语口语数据2.LibriSpeech: Audiobooks的数据集，包含了500个小时不同读者读的audiobooks录音，根据audiobooks的章节进行组织的。3.TED-LIUM: 1495个TED的演讲录音4.Free Spoken Digit Dataset: 1500个英语读数字的录音5.T......

2018-12-08 17:06:16 8443

原创 2018年常用的30个免费数据集-Big Data and AI

从Forbes上拿一下Bernard Marr分享的30免费的数据集放到这里。简单的把说明翻译了一下，大家需要的话，可以参考原始地址：Big Data And AI: 30 Amazing (And Free) Public Data Sources For 2018借用Bernard的话，机器学习、人工智能、区块链、预测分析等改革着商业模式并促进者社会发展，但是没有数据，那都是空话。......

2018-12-08 16:54:46 6077

原创几种损失函数比较

1. 综述损失函数（Loss Function)是用来评估模型好坏程度，即预测值f(x)与真实值的不一致程度，通常表示为L(Y, f(x))的一个非负的浮点数。比如你要做一个线性回归，你拟合出来的曲线不会和原始的数据分布是完全吻合（完全吻合的话，很可能会出现过拟合的情况），这个差距就是用损失函数来衡量。那么损失函数的值越小，模型的鲁棒性也就越好，对新数据的预测能力也就越强。通常提到损失函数......

2018-12-08 12:38:39 8657

原创简单的抽取中文摘要及关键词的方法

基于简单的计算sentence间的相似度，并进行page ranking实现抽取文章摘要。使用jieba库实现抽取关键词。可以有很多优化的点，后面慢慢更新吧。具体理论解析可以参考https://blog.csdn.net/qq_32458499/article/details/78659372#/usr/bin/python# encoding: UTF-8import reimp......

2018-12-06 18:39:56 2177