读书笔记
文章平均质量分 63
a_step_further
这个作者很懒,什么都没留下…
展开
-
图上的机器学习系列-聊聊LINE
前言本篇继续GraphEmbedding旅途,来聊聊LINE这个方法,对应的paper为《LINE: Large-scale Information Network Embedding》。---广告时间,欢迎关注本人公众号:LINE的核心方法首先,还是先来脑补一下LINE方法的思考过程:相似度&距离在上一篇中,我们已经知道DeepWalk是采用类似于Word2Vec的...原创 2020-04-07 21:05:02 · 779 阅读 · 0 评论 -
图上的机器学习系列-聊聊Node2vec
前言继DeepWalk后,我们再来看一种基于随机游走策略的图嵌入方法——Node2Vec,有点像前者的升级版本,有了前者的基础,理解起来会快很多。--广告时间,欢迎关注本人公众号:核心方法Node2Vec与DeepWalk最大的不同(甚至是唯一的不同)就是在于节点序列的生成机制。DeepWalk在每一步探索下一个节点时,是在其邻居节点中进行随机选择,然后基于深度优先策略生成一个固定...原创 2020-04-07 20:40:04 · 795 阅读 · 0 评论 -
上手机器学习系列-第5篇(下)-XGBoost原理
本篇中我们结合XGBoost的论文《XGBoost: A Scalable Tree Boosting System》来理解一下该算法的原理。这是一篇写自2016年的论文,当时已经有大量的竞赛、工作实践开始采用XGBoost。作者在论文中将XGBoost称为Scalable,正是基于它的高性能特点,据论文讲,根据当时的评估,在单机上的运行速度对比中,XGBoost较业内其它算法快了至少10倍以上...原创 2020-03-19 10:17:57 · 256 阅读 · 0 评论 -
数据分析案例之电影推荐
前言通过案例来学习数据分析的思路和练习相应分析工具,往往最有效的。本文用julia来进行全流程的探索和分析,以期达到既掌握分析思路,又练习了这一新兴的数据科学利器。同时,个性化推荐是个太大的topic,涉及的理论方法和实践非常多,本文有些地方会详细展开,有些则一笔带过。如无特殊说明,本文中所使用的code均为julia代码,IDE环境为JuliaPro.问题阐述个性化推荐是当今网络世界上普遍存在的...原创 2018-04-10 07:33:00 · 10792 阅读 · 1 评论 -
数据科学工具箱之julia篇
julia是啥julia 于2012年的情人节当天由几位MIT研究人员对外正式发布,所以这是一门非常年轻的语言,截至2018年1月份已经有超过180万的下载安装量[wikipedia]。它的定位是高效率地进行科学计算,其执行性能据说达到了C语言的级别,业界有句评价是:Walks like python. Runs like C.十分钟入门速查表最最基本的原创 2018-03-23 00:56:03 · 3057 阅读 · 0 评论 -
编程题目练习-翻牌
题目:有100张牌,依次写上1-100,按从小到大的顺序排列,初始时所有牌面向上。依次从第N张牌开始(N从2开始),每隔N-1张翻转牌面,直到无牌可翻。求最后所有背面朝上的数字。思路:如果一张牌被翻了奇数次,则是正面朝上;如果翻了偶数次,则是背面朝上。每张牌被翻转的次数,也就是该牌上数字在顺序操作中出现的次数。C++版本源代码:#include #includ原创 2017-08-14 07:07:21 · 1215 阅读 · 0 评论 -
回文寻找
题目:寻找一个大于10的最小正整数,使其本身、二进制转化值、八进制转化值,都是回文暴力解法:#include #include #include using namespace std;string conv(int N, int jinzhi);template string to_string(const T& t);int judgeHW(string in原创 2017-08-10 22:31:11 · 292 阅读 · 0 评论 -
数据科学系列读书笔记
记录一下笔者所阅读过的与大数据相关的书籍,以及阅读感受,以期为同仁提供此许参考建议。1. 《数据科学实战》(英文版本名称: Doing data science)笔者点评:这是一本有态度、有观点的书。从者在其中表达了对业界一些关于大数据说法的不认可。同时,作者没有装作万事通,而是很实在地讲,有些分析思路,他也不知道什么好什么不好,而要通过实践来尝试。比如第22页,作者写道 “你怎么知道什么原创 2016-04-03 09:26:59 · 1905 阅读 · 0 评论 -
算法学习笔记之寻找第1500个丑数
最近在阅读《算法新解》(刘新宇 著),书写得很不错,推荐程序们阅读。前言中有个例子,是寻找第1500个丑数,所谓丑数是指仅含2、3、5这三个素因子的自然数。作者在书中给出了伪代码。作为练习,记录下自己的代码。一、暴力查找法算法思路 :迭代每个自然数,逐一判断是否是丑数,并观察累计计数是否达到1500,如果是,则成功找到了第1500个丑数#include #include #incl原创 2017-01-30 21:03:58 · 3419 阅读 · 3 评论 -
特征选择方法学习笔记
一直以来,笔者在实际工作中,对于特征变量的选取,往往是基于业务经验,根据一定的指标口径加工出一个个指标后,即投入到建模过程。而这些指标的好坏、计算口径是否恰当,较少有进行科学地分析与深入思考。与此同时,不少数据挖掘的教科书也对特征选择方法谈及甚少,笔者认为这不是个好现象,间接导致很多人看完了各种分类、聚类算法后,以为自己已经通晓数据挖掘了,但一遇到实际问题,又不知从何处下手了。今日打算学习一下该领原创 2016-04-04 21:43:35 · 10489 阅读 · 0 评论 -
大数据中的隐藏偏差
偶读Kate Crawford(供职于微软研究院)女士2013年的一篇旧文 ,仍有所触动,故而作读书笔记一篇。 先抛一个问题:数据科学的目标是什么? 笔者认为,人类社会很大的诱惑与恐惧均来自于对未来的不可知。我们因为害怕未知的疾病、灾难,而选择了宗教;因为不确定市场价格的未来走势,而热衷于K线图分析来试图聆听市场的提示;因为不知道谁更愿意购买我们的商品,而建立市场调研与原创 2016-04-02 11:35:56 · 3833 阅读 · 0 评论 -
《机器学习》(周志华)读书笔记
周志华老师的新书《机器学习》,第28页论及训练集相关的方法时,讲道 “给定包含m个样本的数据集D,在模型评估与选择过程中由于需要留出一部分数据进行评估测试,事实上我们只使用了一部分数据训练模型。因此,在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型。这个模型在训练过程中使用了所有m个样本,这才是我们最终提交给用户的模型。“ 这里,个人有一点异议。训练数据的量级本原创 2016-03-20 18:34:13 · 3450 阅读 · 0 评论