自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王大宝的CD

数据挖掘爱好者

  • 博客(27)
  • 收藏
  • 关注

原创 推荐系统-隐因子模型(LFM)

今天我们来聊一聊LFM(Latent Factor Model)的故事,这也算是我们在推荐系统里第一个用到的学习算法了吧,前面讲的两个协同过滤都是基于统计来的。协同过滤的思路就是基于用户和物品的交互行为,要么计算用户间的相似度,推荐相似度高的用户喜欢的物品,因为这两个用户可能兴趣相投;要么就是计算物品间的相似度,推荐和历史记录相似度很高的物品,因为他们可能属于同一类别的商品。我们做决策的基础都...

2019-01-21 16:10:44 6063 4

原创 推荐系统-基于物品的协同过滤(Item-based CF)

今天我们来聊一聊基于物品的协同过滤即Item-based CF方法。有了上一篇的经验,你可能很容易就想到Item-based CF就是通过计算物品之间的相似度,然后用户曾与那些商品发生过交互,给他推荐与这些商品最接近的东西给他。这样做有什么好处呢?可解释性!虽然同样是计算相似度,但User-based只能说某个人看起来和你兴趣一致,他喜欢过这个所以我给你推荐这个;而Item-baed则是你曾经看过...

2019-01-13 15:20:58 7388 3

原创 推荐系统-基于用户的协同过滤(User-based CF)

基于邻域的算法应该算是推荐系统中最基础的算法之一了,主要包括基于用户的协同过滤和基于物品的协同过滤,我觉得他们是最符合直觉的推荐算法了。你想想看,如果给你若干人的行为数据,你怎么去做推荐,一个就是找到和他最相似的用户,因为他们臭味相投,所以看看这些用户都看了些啥,然后给他推荐这些用户看过而待推荐用户没看过的商品;另一个就是找到和用户历史放生交互的商品最相似的商品,用户以前喜欢过它,也许会喜欢和它相...

2019-01-09 15:58:10 11123 1

原创 推荐系统概述

已经很长一段时间没写过东西了,一方面确实是乱七八糟的事情比较多,另一方面也确实是懒,所以趁着现在实验室没那么多活儿要干了,想要写写博客梳理梳理自己学习的一些东西。至于为什么会选择推荐系统,你看看我们这种转行狗的学习路径就明白了。作为一名名字听起来很吓人的理工科专业学生,coding我们是比不过那些科班的同学的,唯一可能也不一定有的优势就是咱们的数理基础相对会好一点(也不一定),所以肯定会选择算...

2019-01-05 16:47:01 541

原创 数据结构与算法(2)排序算法,用Python实现插入,选择,堆排,冒泡,快排和归并排序

前段时间鼓起勇气和老板说了一下以后想从事机器学习方向的工作,所以最好能有一份不错的实习,希望如果我有好的机会他可以让我去,没想到老板非常通情达理,说人还是要追寻自己感兴趣的东西,忙完这阵你就去吧。所以最近开始疯狂地投实习生简历,各家春招都去投了试试。那天第一次面试去了网易,面试官感觉很年轻,也挺有耐心的,前面机器学习部分基本都没什么问题,最后说那写写代码吧,先来个快排吧,当时感觉有点懵,说了一句我...

2018-04-11 16:20:01 1326 5

原创 数据结构与算法(1)链表,基于Python解决几个简单的面试题

最近头一直很大,老板不停地布置各种任务,根本没有时间干自己的事情,真的好想鼓起勇气和他说,我以后不想干这个了,我文章也发了您就让我安安稳稳混到毕业行不行啊……作为我们这些想要跨专业的人来说,其实很大的一个劣势就是没有经历过一个计算机学科完整的培养,所以对计算机专业的一些很基本但又很重要的内容缺乏足够的了解,比如,数据结构与算法。我们日常做科研其实写代码也挺多的,一开始我也觉得虽然我不懂数据结构但好...

2018-03-15 15:26:48 3245 3

原创 利用Python通过频谱分析和KNN完成iphone拨号的语音识别

利用Python,通过对波形文件的有效区域提取及频谱分析,利用KNN算法完成一个iphone拨号的语音识别。

2017-09-01 15:37:42 4366 4

原创 数据挖掘(三)分类模型的描述与性能评估,以决策树为例

分类模型的描述主要是混淆矩阵,精确率,召回率等等,分类模型的性能评估则主要讲述了交叉验证这种方式,结合决策树讲解了如何用python实现分类模型的描述与评估。

2017-07-25 09:14:58 13177 3

原创 数据挖掘(二)用python实现数据探索:汇总统计和可视化

数据挖掘的第一步数据探索,包括汇总统计和可视化,介绍了相关概念,并结合鸢尾花数据展示了如何用Python进行汇总统计量的计算以及常用的可视化来帮助我们分析数据的性质。

2017-07-17 09:54:51 21347 12

原创 数据挖掘(一)你真的了解什么是数据挖掘和数据本身吗?

数据挖掘系列的第一篇,介绍了关于数据挖掘的基本概念以及关于数据的方方面面,建立对于数据和数据挖掘的基本认识。

2017-07-10 15:34:53 43705

原创 机器学习笔记(十二)朴素贝叶斯算法及实践(NB算法的产生及参数估计)

朴素贝叶斯算法原理及实践,具体阐述了NB算法的应用背景及参数估计,还有用鸢尾花数据做的一个简单的小实例。

2017-04-23 12:29:02 5505

原创 机器学习笔记(十一)实践之数据竞赛的套路

梳理参加数据竞赛常见的套路和流程,以泰坦尼克号幸存者预测为例,希望可以帮助大家快速入门竞赛。

2017-04-02 11:08:44 6270 4

原创 机器学习笔记(十)EM算法及实践(以混合高斯模型(GMM)为例来次完整的EM)

EM算法简介,讲述了EM的算法原理及思想,用混合高斯模型(GMM)为例完成了一个完整的EM过程,还有GMM算法的Python实践。

2017-03-24 12:57:01 30210 10

原创 机器学习笔记(九)聚类算法及实践(K-Means,DBSCAN,DPEAK,Spectral_Clustering)

聚类算法的原理介绍及Python的简单实践,主要包括K-Means,DBSCAN,DPEAK,Spectral_Clustering。

2017-03-18 13:59:12 18117 5

原创 机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机

支持向量机(SVM)算法最人性、最白话的解释以及在Python中的调用。

2017-03-12 12:08:22 10417 3

原创 Python读写文件模式

Python读写文件模式的一个小笔记还有我充满怨气的吐槽!!!

2017-03-10 16:13:39 1068 1

原创 机器学习笔记(七)Boost算法(GDBT,AdaBoost,XGBoost)原理及实践

Boost(提升)算法介绍,包括GDBT,AdaBoost和XGBoost的原理及Python中的实践。

2017-03-09 12:09:49 40785 10

原创 机器学习笔记(六)Bagging及随机森林

Bagging和随机森林原理介绍以及利用sklearn的实现。

2017-03-05 11:17:21 5155

原创 机器学习笔记(五)决策树算法及实践

决策树算法的理论与实践,主要介绍了ID3,C4.5和CART算法,用时可learn自带数据进行了简单的决策树实践。

2017-03-01 12:43:10 2723 1

原创 机器学习笔记(四)Logistic回归

Logistic回归原理及推导。构建了一个简单的分类问题,利用库和手写算法比较结果的异同,分类结果良好,但参数相差很大,希望有大神可以指点。

2017-02-19 17:32:37 2777 3

原创 机器学习笔记(三) 线性回归及梯度下降算法

机器学习中线性回归相关的内容。包括线性回归损失函数的由来,梯度下降法的应用,正则化处理。

2017-02-15 14:44:07 6587 3

原创 机器学习笔记(二)矩阵和线性代数 例:用Python实现SVD分解进行图片压缩

机器学习中涉及的一些线性代数和矩阵分析的内容,并通过一个例子来表明线性代数的应用,利用Python实现SVD分解来进行图片压缩。

2017-01-17 13:45:17 6930 4

原创 机器学习笔记(一)概率论基础

机器学习基础之概率论相关内容,介绍了概率论中最常用的一些概,各种机器学习常用的分布,以及概率的运算。

2017-01-12 14:14:00 3626 7

原创 第一个完整爬虫:爬取应届生网所有职位的详细信息

在前面几篇博文里其实已经介绍了和Python爬虫相关的很多基础知识,包括基本的抓取网页信息,ip池的建立和使用,多进程在ip验证中的使用,今天我们就把这些内容整合到一起,完成一个真正的爬虫。我们先来梳理一下思路,要爬取所有职位的详细信息,应该包括以下几步:1 爬取所有职位及其对应的url2 对每一个职位所对应的url进行信息提取3 将信息保存在本地数控库中4 如果要防止ip被封

2017-01-01 12:37:18 9013 4

原创 Python中多进程在爬虫中的使用

如何利用多进程的方法来提高Python爬虫的速度和效率。介绍了multiprocessing库的使用,并且用验证爬到的代理IP可用性作为例子来讲述多进程方法的具体使用。

2016-12-18 13:53:17 15922 3

原创 Python爬虫IP代理池的建立和使用

采用IP代理的方法避免短时间大量访问某网站服务器导致IP被封的情况,包括从网上抓取代理IP和端口以及验证其有效性。

2016-12-03 13:37:23 27575 4

原创 Python爬虫入门,抓取应届生求职网北京地区所有职位

利用Python爬取应届生求职网北京地区的所有工作及其详细信息,拆解完成,第一步首先爬取所有的职位及其链接。新手刚刚入坑Python爬虫,希望大家多指教,也欢迎刚开始学习的朋友和我一起进步。

2016-11-26 12:00:44 3015

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除