机器学习
善良的弹壳
主要分享爬虫、数据挖掘、推荐算法相关学习与实践经验。代码以基于python、scrapy、hadoop、spark等为主
展开
-
机器学习常用算法原理及优缺点
KNN核心思想是:物以类聚,人以群分根据两点距离公式,计算距离,选择距离最小的前k个点,并返回分类结果。假设一个未知样本数据x需要归类,总共有ABC三个类别,那么离x距离最近的有k个邻居,这k个邻居里有k1个邻居属于A类,k2个邻居属于B类,k3个邻居属于C类,如果k1>k2>k3,那么x就属于A类,也就是说x的类别完全由邻居来推断出来算法步骤为:1、计算测试对象到训练集...原创 2019-07-21 23:42:43 · 982 阅读 · 1 评论 -
推荐系统项目整理
一. 数据基础:主要包括:用户行为数据:来源于用户行为日志,通过flume采集至HDFS用户画像数据:来源于用户注册,保存至Hbase用户表物品元数据:来源于内容管理系统,通过flume采集至HDFS二. 推荐算法(粗排)基于内容的推荐(简称CB):(1)将HDFS中的物品元数据写入Hbase倒排表(2)读取Hbase倒排表中数据20w+索引数据,以token(关键词)为r...原创 2019-08-11 22:35:58 · 2681 阅读 · 0 评论