- 博客(435)
- 资源 (23)
- 收藏
- 关注
原创 使用python进行收据搜集示例之different_format_data_processing
这里是用jupyter notebook写的关于使用python进行数据收集的基本知识,包括crawl_and_parse、different_format_data_processing、feature_engineering_example和python_regular_expression等。之前课程里提供的资料,移植到了python3+windows环境上。代码上传到csdn资源啦:ABC
2016-12-16 23:54:44 2884
原创 使用python进行收据搜集示例之crawl_and_parse
这里是用jupyter notebook写的关于使用python进行数据收集的基本知识,包括crawl_and_parse、different_format_data_processing、feature_engineering_example和python_regular_expression等。之前课程里提供的资料,移植到了python3+windows环境上。代码上传到csdn资源啦:ABC
2016-12-16 23:52:22 969
原创 pandas基本使用方法示例
这里是用jupyter notebook写的pandas的基本用法,使用的环境是python3+windows,代码上传到csdn资源啦:ABC of Pandas 关于pandas学习还是强烈建议常去官方http://pandas.pydata.org/pandas-docs/stable/里查一查各种用法和toturial等。 下面是jupyter notebook代码导出的md文件。数据
2016-12-16 22:38:45 5333
原创 numpy基本使用方法示例
前些天学了些numpy的基本用法。这里用jupyter notebook又熟悉了一遍,使用的环境是python3+windows,代码上传到csdn资源啦:ABC of Numpy 关于numpy学习还是强烈建议常去官方https://docs.scipy.org/doc/numpy/reference/里查一查各种用法和toturial等。 下面是jupyter notebook代码导出的md
2016-12-16 22:28:00 5368
原创 windows上安装python_igraph
之前尝试在windows用pip和conda直接装igraph都装不上,后来发现了lfd的网站 Unofficial Windows Binaries for Python Extension Packages , 里面有很多python的资源和库与工具。 在上面的网址中找到python_igraph去下载具体的python对应版本和是32位还是64位的,比如我下载了 python_igraph‑
2016-12-16 22:02:50 3329
原创 cs231n课程资料Python Numpy Tutorial的Python3版本
cs231n课程资料Python Numpy Tutorial的Python3版本cs231n课程提供了一个python numpy tutorial的教程,非常不错。之前看过,这些天又想爬虫和数据分析这一块,有拿出来看了看。官方给的原版的ipython notebook cs228-python-tutorial.ipynb是python 2.7版本的,学习的过程中我顺便改成了python3版本的
2016-12-12 17:25:49 3438 1
翻译 14. Evaluate multiple ideas in parallel during error analysis 错误分析时并行评估多个想法(《MACHINE LEARNIN
错误分析时并行评估多个idea你的团队有以下几个想法来改进猫检测器:解决狗被错认为是猫的问题解决“大形猫科类动物(great cats)”(狮子,豹等)被错认为是家猫(宠物)的问题提高系统在模糊(blurry)图像上的表现性能……你可以同时有效地评估所有这些想法。我通常会做一个电子表格,查看100个分类错误的开发集样本并填充在表格上,同时也会写下一些针对特定样本的评论。这里用有4个错误分类
2016-12-10 10:30:23 2795
翻译 13. Error analysis: Look at dev set examples to evaluate ideas 错误分析:查看开发集样本来评估idea(《MACHINE
下面13~17小节将主要介绍 Basic Error Analysis 基本错误分析错误分析:查看开发集样本来评估idea当你玩你的猫app时,你注意到有时它会把狗错误识别成猫。一些狗长的像猫! 于是一个团队成员建议加入第三方软件,使系统对于狗的样本处理的更好。这些改变需要花费一个月的时间,团队其他成员也都很热衷于这一方案。你应该要求他们这样做吗?在为这个任务投资一个月之前,我建议你首先评估一
2016-12-10 00:15:17 2270
翻译 12. Takeaways: Setting up development and test sets 小结:建立开发集和测试集(《MACHINE LEARNING YEARNING》翻译)
小结:建立开发集和测试集从分布中选择开发集和测试集,以反映你期望在未来获得的数据,并希望在上面做得很好。这可能和你的训练数据分布不同。如果可能的话,选择来自同一分布的开发集和测试集。为你的团队选择单一数字的评估指标进行优化。如果你关心多个目标,请考虑把它们合并到一个公式中(例如平均多个错误指标),或设定满足指标和优化指标。机器学习是一个高度迭代的过程:在发现你满意的方法之前你可能需要尝试很多
2016-12-09 20:38:20 1934
翻译 11. When to change dev/test sets and metrics 何时更改开发/测试集和评估指标(《MACHINE LEARNING YEARNING》翻译)
何时更改开发/测试集和评估指标当开始一个新项目时,我一般会试图快速选择一个 开发/测试集 ,因为这可以给团队制定一个明确的目标。我通常会要求我的团队在不到一周之内想出一个初始的开发/测试集和评估指标。提出一个不太完美的方案并迅速行动起来往往比过分考虑这些会更好。但是“一周”这个时间表并不适用于成熟的应用。例如,反垃圾邮件是一个成熟的深度学习应用。我曾经见过那些开发已经成熟的系统的团队可能会花费数月时
2016-12-09 13:57:16 1674
翻译 10. Having a dev set and metric speeds up iterations 有一个开发集和评估指标来加速迭代(《MACHINE LEARNING YEARNING》翻
有一个开发集和评估指标来加速迭代对于一个新问题,很难事先知道什么方法是最合适的。即使经验丰富的机器学习研究者在发现满意的方法之前也会尝试各种各样的idea。在构建机器学习系统时,我经常会:首先想出一些构建系统的想法(idea)在代码(code)中实现这些idea进行实验(experiment),通过实验判断我的想法 work的怎么样。(通常我的前几个想法都不是很work!)基于这些知识,再生成
2016-12-09 11:03:20 1605
翻译 9. Optimizing and satisficing metrics 优化指标和满足指标(《MACHINE LEARNING YEARNING》翻译)
优化指标和满足指标这是组合多个评估指标的另一种方法。假设你同时关心算法的准确率和运行时间。你需要在下面三个分类器中进行选择: 这里如果将准确率和运行时间组合为单个评估指标会看起来不太自然,例如:Accuracy−0.5∗RunningTimeAccuracy-0.5*RunningTime 这里你可以替代为这样:首先,定义一个“可接受”的运行时间。例如我们说任何运行时间在100ms以内的算法
2016-12-09 10:13:39 2729 1
翻译 8. Establish a single-number evaluation metric for your team to optimize 建立一个单一数字的评估指标(MACHINE LE
为你的团队进行算法优化建立一个单一数字的评估指标分类准确率是单一数字评估指标(single-number evaluation metric)的示例:你在开发集(或测试集)上运行运行一个分类器,然后得到一个正确分类的样本比例这样一个数字。根据给指标,如果分类器A获得97%的准确率,分类器B获得90%的准确率,则我们认为分类器A更好。相比之下,查准率(Precision)和查全率(Recall)【3】
2016-12-09 08:12:58 2349
翻译 7. How large do the dev/test sets need to be? 开发集和测试集多大合适(《MACHINE LEARNING YEARNING》翻译)
开发集和测试集多大合适?开发集应该足够大,大到能检测出你尝试的不同算法之间的差异。例如,如果一个分类器A具有90.0%的准去率而分类器B具有90.1%的准确率,则只具有100个示例的开发集不能够检测出这0.1%的差异。与我看到的其他机器学习问题相比,100个样本的开发集很小。常见的开发集样本规模一般在1000到10000之间。在10000个样本的情况下,你将有更大的可能性检测到0.1%的性能提升。【
2016-12-09 03:54:21 2818
翻译 6. Your dev and test sets should come from the same distribution 你的开发集和测试集应该来自同一分布(《MACHINE LEARNING
你的开发集和测试机应该来自同一分布根据你的市场,您将你的猫app的图片数据分为四个区域:(i)美国,(ii)中国,(iii)印度和(iv)其他地区。要生成一个开发集和一个测试集,我们随机地分配两个地区的数据到开发集,另外两个到测试集,对吗?比如来自美国和印度的数据在开发集,中国和其他地区的在测试集。一旦你这样定义了开发集和测试集,你的团队将专注于提高开发集的表现性能。因此,开发集应该反映你真正想要提
2016-12-09 03:05:57 2901
翻译 5. Your development and test sets 你的开发集和测试集(《MACHINE LEARNING YEARNING》翻译)
下面几个(5~12)章节将主要介绍 Setting up development and test sets 建立开发集和测试集你的开发集和测试集让我们回到之前关于猫的图片的例子:你制作了一个移动APP,用户可以上传很多不同事物的图片到你的app上,你想要自动发现关于猫的图片。你的团队从不同的网站下载大量猫(正样本,positive examples)和非猫(负样本,negative examp
2016-12-09 02:15:46 4497 2
翻译 4. Scale drives machine learning progress 规模促进了机器学习的发展(《MACHINE LEARNING YEARNING》翻译)
规模促进了机器学习的发展深度学习(神经网络)中的许多想法已经存在了几十年了。为什么这些idea现在突然火了呢?促使近年来进步的最大的驱动因素有两个:大量可用的数据。如今人们在数字设备(笔记本电脑,移动设备等)上花费比以前多得多的时间。这些活动产生了大量的数据,我们可以使用这些数据来训练我们的学习算法。计算能力的提升。仅仅在几年前我们才能够训练足够大的神经网络,以利用我们现在所拥有的巨大的数据量。
2016-12-09 01:03:42 2999 1
翻译 3. Prerequisites and Notation 预备知识和符号约定(《MACHINE LEARNING YEARNING》翻译)
预备知识和符号约定如果你曾经学习过机器学习的课程(如我在coursera上的machine learning MOOC)或有应用监督式学习的经验,你将能够理解下面这段文字。我假设你熟悉监督式学习 (supervised learning):使用标记的训练样例(x, y)学习一个从x映射到y的函数。监督式学习包括线性回归(linear regression),对数几率回归(也叫逻辑回归,logisti
2016-12-08 23:50:17 3508
翻译 2. How to use this book to help your team 如何使用这本书来帮助你的团队(《MACHINE LEARNING YEARNING》翻译)
如何使用这本书来帮助你的团队在读完这本书后,你将对如何制定机器学习项目中的技术方向有一个深入的了解。但是你的队友可能并不理解你为什么建议某一个特定的方向。或许你希望你的团队定义一个单一数字的评估指标,但他们却并不信服。你如何说服他们?这就是为什么我把章节设置的这么短:这样你可以打印出来并给你的队友看仅仅你想要让他们知道的那1~2页。面对几个不同的选择,在优先次序上的一些改变可能会对你团队生产力产生巨
2016-12-08 23:22:57 3830
翻译 1. Why Machine Learning Strategy 为什么需要机器学习策略(《MACHINE LEARNING YEARNING》翻译)
为什么需要机器学习策略机器学习是很多重要应用的基础,例如网页搜索,反垃圾邮件,语音识别等。如果你或你的团队正在开发一个有关机器学习的应用,并且你想要获得快速地进步。这本书将会帮助到你。示例:建立一个识别含有猫的图片的创业公司也就是说你建立了一个创业公司,为猫爱好者提供无尽的猫的图片。你打算使用一个神经网络建立一个计算机视觉系统来检测图片中的猫。 但悲催的是,你的学习算法的准确率目前并不够好。所
2016-12-08 21:52:17 7284 1
翻译 《MACHINE LEARNING YEARNING》翻译——开篇
《MACHINE LEARNING YEARNING》是Andrew NG最近出的本新书,目前正在陆续发布书的手稿。打算翻译一下这本书,并借机梳理一下机器学习方面的知识。翻译中的任何不足之处,欢迎大家不吝指出。Table of Contents (draft)目录 1. Why Machine Learning Strategy 为什么需要机器学习策略 2. How to use this
2016-12-08 21:14:17 17497 8
原创 Python爬虫数据分析相关资源
官方文档python官网 pandas documentation NumPy Reference matplotlib documentation python-igraph scikit-learn document Beautiful Soup 4.4.0 文档 Selenium-Python中文文档 Requests: 让 HTTP 服务人类爬虫会用到基础w3school
2016-12-06 19:37:22 1364
原创 yolo训练之样本准备环节
我们要用yolo做我们自己的objection detection,需要自己准备样本,自己训练。在训练之前,我们需要把样本转为我们需要的格式,贴标签等。这里介绍一下这部分工作。 文件目录树:training_data--image --dount #保存图片的文件夹,两类的object保存在同一文件夹下 --00001.jpg --00002.jpg
2016-11-21 16:03:32 5047
原创 计算机视觉相关资源
关于如何利用计算机视觉确定一个物体的位姿的解决方案举例,比如执行机器人抓取等任务,传统的方案是先要得到object相对于真实世界的位姿,然后做运动规划。在视觉领域我们一般会做detection得到location信息,那么下一步怎么做呢?这方面我了解也不多。参见: A. 传统的RCNN可以大致框出定位物体在图片中的位置,但是如何将这个图片中的位置转化为物理世界的位置?关于OpenCV在Linux上
2016-11-19 11:30:53 930
原创 CS231n课程知识点汇总(lecture1-5)
最近在跟看CS231n的课程,中文字幕视频、课件和翻译笔记结合着看,资源详见: 深度学习相关资源。 看完之后容易忘,怕以后找着麻烦。学习的过程中主要以课程PPT为主,记录了每节课讲的知识点,中间穿插了翻译笔记的目录,便于以后翻看。 由于中文字幕的视频正在连载中,这里先记下lecture1-5的知识点汇总,总结的不好,须在此基础上自行修改的可下载word版CS231n课程知识点汇总(lecture
2016-11-18 23:27:25 1247
原创 linux使用记录
Linux命令大全http://man.linuxde.net/右键添加vim打开文本文件最近刚刚喜欢上vim,而ubuntu上默认的文本文件打开方式是gedit,点击右键选择其他程序打开发现没有vim。这就需要我们手动添加了,很简单,效果如图: 说一下怎么搞, 在/usr/share/applications下新建一个vim.desktop文件 命令:sudo vim /usr/shar
2016-11-11 11:09:18 1140
原创 《OpenCV3编程入门》学习笔记番外篇之OpenCV-Python使用
之前一直是使用OpenCV的C++接口来编程,由于python功能强大,现在也有很多人使用OpenCV-Python来完成图像处理的一些工作,因为其比较方便。 这两天由于要为object detection by learning 做一些准备工作,其实也就是把视频样本转换为图片,然后给每一个图片打标签。关于第2步可以直接使用github上的开源代码labelImg 来完成。第1步自己用OpenCV
2016-11-08 10:27:03 2919
原创 《OpenCV3编程入门》学习笔记番外篇之目标跟踪object tracking
这里介绍一下使用OpenCV进行目标跟踪的方法,之前用过一点。OpenCV中目标跟踪的一些比较新的方法(比如MIL、KCF、TLD等)都在opencv_contrib库里,所以首先你需要安装它,详见Opencv3.1.0+opencv_contrib配置及使用SIFT测试 。 关于tracking这一块可参考Opencv的官网 Tracking API 、Introduction to OpenC
2016-11-08 09:54:11 6047 1
原创 《OpenCV3编程入门》学习笔记番外篇之图像形态学处理
关于图像形态学在《OpenCV3编程入门》学习笔记六:图像处理 中涉及到过,但给的例程不是特别好。这里再给出一个比较直观的例子。 源码:#include<opencv2/opencv.hpp>#include<iostream>using namespace cv;using namespace std;Mat g_srcImage, g_dstImage; //原始图和效果图int g
2016-11-06 16:32:07 1571
原创 《OpenCV3编程入门》学习笔记之官方例程学习
OpenCV官方资料做的相当完善,其中官方例程就是非常好的参考资料。 1. 其在...\opencv\sources\samples\cpp\tutorial_code 路径下,如图: 这里以video下的bg_sub.cpp为例,其作用时背景移除。注意要在属性中填写命令参数,如下: 2. 官网上也给了一些例程:Examples
2016-11-06 16:15:31 4193 2
原创 《OpenCV3编程入门》学习笔记之书本资源汇总
这里主要汇总一下书中的图片素材和函数清单。 函数清单: 图片素材: poster_book.jpg poster_book_1.jpg poster_book_2.jpg poster_building.jpg poster_building_1.jpg poster_building_2.jpg poster_car.jpg post
2016-11-06 15:01:30 3264
原创 《OpenCV3编程入门》学习笔记十一:特征点检测与匹配
一:内容介绍 本节主要介绍OpenCV的imgproc模块的特征点检测与匹配部分: 1. surf特征点检测、描述 2. 特征点匹配方法BruteForceMatcher和FlannBasedMatcher 3. 图像间关键点的变换findHomography与映射perspectiveTransform 4. ORB特征 二:学习笔记 1. 这一章相对还是挺实用的,特别对于有纹
2016-11-06 14:03:01 5403
原创 使用YOLO训练自己的数据样本经验总结
YOLO近一年多新出的一种object detection的方法,关于目标检测及YOLO的介绍可参见:基于深度学习的目标检测研究进展 , CVPR2016目标检测之识别效率篇:YOLO, G-CNN, Loc-Net ,RCNN学习笔记(6):You Only Look Once(YOLO):Unified, Real-Time Object Detection。 1. 好,现在我们使用yolo一
2016-11-03 04:45:07 25783 26
原创 使用keras深度学习实现回归问题示例
通常情况下,我们都是用深度学习做分类,但有时候也会用来做回归。 原文出处:Regression Tutorial with the Keras Deep Learning Library in Python 1. 这里作者使用Keras 和python的scikit-learn机器学习库来实现了对房价的回归预测。关于scikit-learn与Keras联合可参考 Scikit-Learn接口包装
2016-10-31 16:21:49 24959 8
原创 Jetson TX1上使用目标检测库YOLO出现电脑崩溃问题的解决方法
这个问题折腾一周多了,之前以为是系统问题,给TX1重刷了系统(方法详见:Jetson TX1使用记录)。然后还是不行,后来经过测试确认cuda装的确实没有问题,GPU可以正常使用。 1. 使用sudo ~/tegrastats 命令查看硬件使用状态,我们看到在系统崩溃的瞬间出现如下现象: 可以看到,内存不够,然后用了swap。把内存和CPU都吃完了就崩了。 2. 这个问题的解决方案参见:D
2016-10-26 22:01:44 3587 4
原创 MATLAB基本使用素养
大部分人对MATLAB可能都是随需随用,从来没有系统学过,甚至基础部分。一般遇到问题,就直接去网上搜。这样存在两个问题: 一,遇到问题就去网上搜其实编程效率非常低。 这里介绍几个小trick,大家应该也都知道。 A. 善于使用help 。help function-name ,就可以查看某个函数的功能、使用方法示例等,非常方便且有用。当然也可以用doc function-name ,介绍地更详
2016-10-26 20:09:38 1120
原创 《OpenCV3编程入门》学习笔记十:角点检测
一:内容介绍 本节主要介绍OpenCV的imgproc模块的角点检测(Feature Detection)部分: 1. Harris角点检测 2. Shi-Tomasi角点检测 3. 亚像素级角点检测 二:学习笔记 1. harris角点还是挺常见的,Harris角点 这篇文章介绍的比较好。 ————————–补充于16/11/10————————————- 昨天帮老师做几页
2016-10-21 15:04:41 4906
原创 《OpenCV3编程入门》学习笔记九:直方图与匹配
一:内容介绍 本节主要介绍OpenCV的imgproc模块的直方图与模板匹配部分: 1. 直方图的计算与绘制 2. 直方图对比 3. 反向投影 4. 模板匹配 二:学习笔记 1. 关于图像的HSV格式,平常老是用RGB了解这个较少,参见:HSL和HSV色彩空间 , 如何通俗地解释色彩三要素:色相、明度、纯度? , 什么是色像?什么是饱和度?什么是色温?什么是色调呢? 。
2016-10-20 16:59:36 2559
原创 keras第一个例程mnist_mlp.py解读
装好keras后,马上运行了例程minst_mlp.py,哇好牛逼,准确率98.4%,但是并不知道自己干了啥。好吧,啃代码。 1. 开头就懵了,数据集在哪呐。 好,从这句入手,找到mnist.py, 从网上下载了minst.pkl.gz,自己顺手下了下来,解压,打开,,,然而并看不懂。肿么办? 不怕,看这里:机器学习–读取mnist数据集 对于这个数据集的详情也可以参考这里:THE
2016-10-19 20:15:21 6510
原创 《OpenCV3编程入门》学习笔记八:图像轮廓与分割
一:内容介绍 本节主要介绍OpenCV的imgproc模块的图像轮廓与分割部分: 1. 查找并绘制轮廓 2. 寻找物体的凸包 3. 使用多边形将轮廓包围 4. 图像的矩 5. 分水岭算法 6. 图像修补 二:学习笔记 1. findContours()函数查找图像轮廓和canny检测边缘、hough检测直线,这些都非常使用(参见:OpenCV成长之路(8):直线、轮廓的提取
2016-10-19 19:51:00 6089
Machine_Learning_Yearning_V0.5_01
2016-12-08
CS231n课程知识点汇总(lecture1-5).docx
2016-11-18
OpenCV3编程入门_毛星云编著
2015-12-05
基于Activex控件的C++、C#混合编程
2015-11-07
扫雷程序源码
2015-06-12
VS2010 VC++创建.rc资源文件(二)
2015-06-07
VS2010 VC++创建.rc资源文件(一)
2015-06-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人