利用Python简单实现网易云用户算法推荐系统

最新推荐文章于 2024-05-01 15:32:09 发布

Python_sn

最新推荐文章于 2024-05-01 15:32:09 发布

阅读量2.2k

点赞数 6

文章标签： python Python编程编程语言

本文链接：https://blog.csdn.net/Python_sn/article/details/109034344

版权

笔者最近面试到了网易新闻推荐部门，考了一点推荐系统的知识，算是被虐惨了。于是乎自己怒补了一些知识。记录一点关于推荐系统的知识和实现。
音乐推荐系统，这里的简单指的是数据量级才2万条，之后会详细解释。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：961562169

1. 推荐系统工程师人才成长RoadMap

这里写图片描述

2. 1. 数据的获取

任何的机器学习算法解决问题，首先就是要考虑的是数据，数据从何而来？
对于网易云音乐这样的企业而言，用户的收藏和播放数据是可以直接获得的，我们找一个取巧的方式，包含用户音乐兴趣信息，同时又可以获取的数据是什么？

对的，是热门歌单信息，以及歌单内歌曲的详细信息。
这里写图片描述

3. 数据爬虫脚本

代码说明：
1. 网易云音乐网络爬虫由于加了数据包传动态参数的反爬措施。拿到歌单数据包的难度很大。一大神破解了传参动态密码，代码中AES算法。
2. 但是不知道为什么这个python2.7版下脚本只能爬取每个歌单里面的10首歌，由于这个原因，导致我们的推荐系统原始数据量级骤然降低。笔者试了很久，也没有办法。望大家给点建议。不管怎样，数据量小，那咱们就简单实现就好。
3. 一共1921个歌单（json文件），每个歌单里面包含10首歌，所以咱们后面建模的数据量实际只有2W左右的实例。

# -*- coding:utf-8 -*-
"""
爬虫爬取网易云音乐歌单的数据包保存成json文件
python2.7环境
"""
import requests
import json
import os
import base64
import binascii
import urllib
import urllib2
from Crypto.Cipher import AES
from bs4 import BeautifulSoup


class NetEaseAPI:
    def __init__(self):
        self.header = {
            'Host': 'music.163.com',
            'Origin': 'https://music.163.com',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',
            'Accept': 'application/json, text/javascript',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Connection': 'keep-alive',
            'Content-Type': 'application/x-www-form-urlencoded',
        }
        self.cookies = {'appver': '1.5.2'}
        self.playlist_class_dict = {}
        self.session = requests.Session()

    def _http_request(self, method, action, query=None, urlencoded=None, callback=None, timeout=None):
        connection = json.loads(self._raw_http_request(method, action, query, urlencoded, callback, timeout))
        return connection

    def _raw_http_request(self, method, action, query=None, urlencoded=None, callback=None, timeout=None):
        if method == 'GET':
            request = urllib2.Request(action, self.header)
            response = urllib2.urlopen(request)
            connection = response.read()
        elif method == 'POST':
            data = urllib.urlencode(query)
            request = urllib2.Request(action, data, self

最低0.47元/天解锁文章

Python_sn

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
利用Python简单实现网易云用户算法推荐系统

笔者最近面试到了网易新闻推荐部门，考了一点推荐系统的知识，算是被虐惨了。于是乎自己怒补了一些知识。记录一点关于推荐系统的知识和实现。音乐推荐系统，这里的简单指的是数据量级才2万条，之后会详细解释。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤QQ群：9615621691...
复制链接

扫一扫