nemoyy
码龄9年
关注
提问 私信
  • 博客:122,930
    122,930
    总访问量
  • 52
    原创
  • 1,470,618
    排名
  • 45
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-01-28
博客简介:

nemo的博客

查看详细资料
个人成就
  • 获得114次点赞
  • 内容获得14次评论
  • 获得409次收藏
创作历程
  • 19篇
    2018年
  • 19篇
    2017年
  • 22篇
    2016年
成就勋章
TA的专栏
  • 我的特征工程
    6篇
  • Machine Learning
    9篇
  • Feature Engineering
    6篇
  • Deep Learning
    2篇
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

353人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文阅读:node2vec: Scalable Feature Learning for Networks

node2vec: Scalable Feature Learning for Networks摘要基于网络中节点和边的预测任务中的特征工程总是很麻烦的。虽然表示学习的自动学习特征已经有很大的帮助,但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。node2vec是本论文提出的一种对网络中的节点学习连续特征表达的框架。通过将节点映射到maximizes the lik...
原创
发布博客 2018.08.19 ·
13521 阅读 ·
7 点赞 ·
3 评论 ·
40 收藏

知识是系统的

计算机研究生面试准备知识要成体系是非常重要, 这篇文章单纯的收集了许多知识, 但是我不能保证我掌握了这些知识为什么高引知乎,因为人们选择在知乎发文章的时候力求解惑,所以他们更会为读者考虑,而其他博客难免会形式化于自己知识的总结,记录的时候会更符合自己的认知习惯操作系统文件系统和数据库系统的区别,哪个效率更高,为什么? [数据库系统与文件系统的区别 CSDN][为什么需要数据库...
原创
发布博客 2018.07.26 ·
3639 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

根据取证特征设计训练集进行隐写分析,解决Cover-source mismatch问题

Facing the Cover-Source Mismatch on JPHide using Training-Set Design 论文阅读1. Abstract本论文讨论了图像处理流水线(image processing pipeline)对Jpeg隐写中原图片源不匹配(cover-source mismatch)问题的影响,并提出一个取证和隐写分析结合的方法来解决CSM问题....
原创
发布博客 2018.07.26 ·
1855 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

对抗样本的一些参考文章和笔记

本文记录了自己准备写一篇介绍对抗样本的科普文章是在YouTube看Ian Goodfellow的一些视频资料学习做的笔记,以及在研究对抗样本(主要)和GAN时看到的技术博客的链接。笔记是随意记的。资料收集博士答辩在Ian博士答辩时总结到’Generative models useful for missing value problems’ in 2014. 和非监督学习....
原创
发布博客 2018.07.15 ·
2286 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

对抗样本:知其然,知其所以然

聪明汉斯的故事  在二十世纪初的德国,有一匹名叫汉斯的马非常有名。在主人威廉•冯•奥斯滕的训练下,聪明的汉斯经过了一段时间的训练,掌握了简单的数学运算。当奥斯滕问汉斯“一加一等于几”的时候,它会用蹄子在地上“嗒,嗒,嗒”的敲出答案。围观的群众看到汉斯能够正确的回答各种数学题,都感到惊讶和神奇。同时,人们也疑惑,汉斯是否真的通过训练学会了过去人们认为动物做不到的事情。在一系列的调查中,人们发现,如果...
原创
发布博客 2018.07.15 ·
26624 阅读 ·
71 点赞 ·
6 评论 ·
197 收藏

理解JPEG图像压缩算法,DCT变换

理解JEPG原理JEPG不是一种文件格式,而是一类图像压缩算法.1.彩色图像灰度图像灰度,一个pixel取值0-255. 彩色图像需要比灰度图像更多的存储空间, 事实上, 所有颜色都可以用红绿蓝三原色的组合表示, 彩色图像可用RGB三通道表示.YCbCr研究发现对于图像压缩, RGB的表示不是最佳的. 人脑对亮度(luminance)和色差(...
原创
发布博客 2018.07.03 ·
18779 阅读 ·
19 点赞 ·
2 评论 ·
109 收藏

word2vec: 理解nnlm, cbow, skip-gram

word2vec 论文笔记1 word rep怎么表示词的意思? 传统的想法有查字典. 近义词,缺点:主观,费人力, 难记算相似性 one-hot 缺点:维度灾难,正交,无法计算similarity. 那么,通过借鉴近义词,学习将similarity编码到词向量中去.1.1 one-hotn-gram language model见我之前写的csdn Blog: 1...
原创
发布博客 2018.06.07 ·
7010 阅读 ·
1 点赞 ·
2 评论 ·
14 收藏

随机森林 OOB理解

一个大小为N的数据集.1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?留坑....
原创
发布博客 2018.05.15 ·
17343 阅读 ·
4 点赞 ·
0 评论 ·
30 收藏

[特征工程]Chap4. 特征缩放:TF-IDF

本章通过BOW 到tf-idf的变化,讨论 feature scaling 的效果.TF-IDF: BOW的变种tf-idf可以说就是BOW基础上的变种, 全称: term frequency- inverse document frequency ,中文: 词频-逆文件频率.BOW记录文件中的词频, 明显的问题就是会强调一些没意义的词, 如英文中的 'the' 'and' 'it' 等等词频会很...
原创
发布博客 2018.05.04 ·
968 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【特征工程】Chap3 Text Data: Flatten, Filtering, Chunking

本章介绍文本的特种工程。从最简单的 bag-of-words开始。下一章会介绍tf-idf。Bag of X: Turning Natural Text into Flat Vectors简单而好理解的特征虽然不一定得到最精确的模型,但从简单开始,只有到必须的时候才增加复杂性确实是好主意。bag-of-words,一个词数统计的列表,虽然找不到文本中特殊的词,但可以发现那些多次出现的词。这对解决文...
原创
发布博客 2018.05.02 ·
669 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Caffe入门:Blobs, Layers, and Nets

读一下官方tutorial:Blobs, Layers, and NetsBlobCaffe stores and communicates data using blobs. Blobs provide a unified memory interface holding data; e.g., batches of images, model parameters, and derivativ...
原创
发布博客 2018.03.14 ·
254 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

样本不均衡问题

今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:方法一:将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。好处:三个集合中的数据均来自于同一分布;坏处:我们设立开发集的目的是瞄准目标,...
原创
发布博客 2018.03.13 ·
831 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【特征工程】Chap2数字处理

Numeric data对于数字,不需要从其他形式转化,仍要考虑:magnitude数字量级是否重要?只用考虑正负?粗粒度?scale of the features极大值极小值分布的量级特征的规模对线性模型影响很大,考虑 3x+1.同时对任何用到欧几里得距离的模型,如K-means,KNN,RBF等,一般需要标准化。logical functions:不需要scaleDistribution o...
原创
发布博客 2018.03.08 ·
488 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【特征工程】Chp1 介绍

机器学习使用数学模型对数据进行拟合来做预测或者帮助理解。模型以特征作为输入。特征是原始数据的一种数字表达,从数据到模型的中间过程,就是特征工程。特种工程是将原始数据提取出来,然后转换为适合机器学习模型的形式。这一步骤非常关键,优秀的特种工程可以有效的降低建模难度。虽然在建立一个ML流水线的时候,大部分时间都是用来做特种工程和数据清洗的,但是因为数据和模型的多样,很难泛化这一过程。尽管如此,本书会逐...
原创
发布博客 2018.03.03 ·
712 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【特征工程】为什么我要记录我学习特征工程的过程

坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别...
原创
发布博客 2018.03.03 ·
438 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DB 复习

点击打开链接jsoncreate function one() returns integer as $$ select 1 as result; $$ language sql;create function add_int(integer,integer) returns integer as $$ select $1 + $2; $$ language sql;
原创
发布博客 2018.01.12 ·
290 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DB lab7

CREATE TABLE table_name (json_value json);INSERT INTO table_name VALUES ('{"name":"me"}');delete from table_name;UPDATE table_name SET json_value = '{"name":"you"}';select * from table_name;CRE
原创
发布博客 2018.01.12 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DB exam2

-- PART1 2‘-- 1 psql -U postgres -d postgres-- 2CREATE DATABASE testdb;-- 3CREATE USER Bob WITH PASSWORD '20171203';ALTER USER Bob superuser;CREATE USER Alice WITH PASSWORD '20171203' superus
原创
发布博客 2018.01.12 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DB exam1

-- 9:50 zhengli daan-- PART1-- 8:10psql -U postgres -d postgresCREATE DATABASE bookdb WITH OWNER postgres;CREATE USER xiaoyubei PASSWORD '15331324';alter user xiaoyubei createdb;psql -U xiaoyub
原创
发布博客 2018.01.12 ·
421 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

计算机体系结构:量化研究方法(中文第五版).pdf

发布资源 2017.09.04 ·
pdf
加载更多