PYTHON
文章平均质量分 79
筝余弦
这个作者很懒,什么都没留下…
展开
-
2021-07-11
预计阅读时间10分钟,下一期将带来RS中经典的GBDT+LR论文。图片文外闲聊图片前段时间和一个老哥聊天,说起Youtubdnn,才知道模型设计只是paper中的一小部分,整篇paper介绍了完整的rs前前后后的过程,被喷为菜鸡(哭了),这两天对paper又复刷了一遍,才发现还有不少有趣的case,话不多说,进入正文!图片背景介绍图片图片Youtube是世界上最大的创作、分享和发布视频内容的平台,也是最复杂的推荐系统之一。在本论文中将介绍Youtube使用深度学习去建立推荐系统,同时分享了原创 2021-07-11 11:23:10 · 152 阅读 · 0 评论 -
2021-06-22
算法演示和完整代码见文末,下一期将带来ML中经典的C4.5决策树算法。读者闲聊背景介绍主要理论数据清单分词工具工程复现动态演示优化展望读者闲聊这两天总结了读者对于公众号文章的建议,在改变自己输出知识方式的同时,也是从不同角度去了解这些知识,能把枯燥繁琐的算法变为精简干练、浅显易懂的干货文章也并非轻易之事。一起加油!背景介绍EM算法:全称Expectation Maximum,指最大期望算法。是通过极大似然估计进行迭代的优化算法。迭代分为E和M两步轮流进行,E步就是求当前的期望,M步原创 2021-06-22 20:42:17 · 199 阅读 · 0 评论 -
NLP自然语言处理|PCA降维算法|标准化
算法演示和完整代码见文末,下一期将带来NLP的经典Word2Vec算法。若需转载请注明来源,谢谢。 简要介绍 部分理论 数据清单 工程复现 结果演示 优化展望 简要介绍最近忙着上线推荐业务,以后再更新Word2Vec,根据业务的embedding数据,许多算法工程师为了加速模型训练会采用各种降维手段,在此将PCA部分理论融入自己的知识进行工程复现,内容涉及使用基本运算库实现数据标准化、PCA降维等。部分理论Name:Nor...原创 2021-06-22 20:39:50 · 881 阅读 · 0 评论 -
NLP自然语言处理|TFIDF算法|分词
算法演示和完整代码见文末,下一期将带来NLP的经典Word2Vec算法。若需转载请注明来源,谢谢。 简要介绍 部分理论 数据清单 分词工具 工程复现 结果演示 优化展望 简要介绍今天躺在床上看Bert如何使用在DNA上,想着对一些NLP知识的掌握逐渐模糊,就开始从头巩固一遍记录下来,并且融入自己的经验进行工程复现,内容涉及使用基本运算库实现TF-IDF算法进行信息检索等。部分理论Name:Term Frequen...原创 2021-06-22 20:33:35 · 862 阅读 · 0 评论 -
ML机器学习|LR线性回归模型|MSE
算法演示和完整代码见文末,下一期将介绍无监督聚类的经典K-Means算法。若需转载请注明来源,谢谢。扫码关注公众号,了解最新领域算法知识 简要介绍 部分理论 数据清单 评价指标 工程复现 动图演示 总结展望 简要介绍最近在李师兄的教学下开始巩固ML-NLP基础理论,将第一次课程部分理论融入自己的知识进行工程复现,内容涉及使用基本运算库实现线性回归、梯度下降法、MSE损失函数等。部分理论Model:...原创 2021-06-22 20:30:49 · 556 阅读 · 0 评论 -
机器学习-线性回归模型-西瓜书代码(LR)-RMSE
以下代码是本人在学习西瓜书时花费两个礼拜根据原理进行原创,若需转载请咨询本人,谢谢!自我研究模拟附上连续数值截图数据截图:运行截图:Linear_config.py""" Filename: Linear_config Author: kdd_zyx Description: 机器学习 - 线性回归 Datas:kdd - 回归 Start: 2018....原创 2019-10-22 14:24:50 · 691 阅读 · 0 评论 -
机器学习-向量机模型-西瓜书代码(SVM)-RBF核函数
以下代码是本人在学习西瓜书时花费两个礼拜根据原理进行原创,若需转载请咨询本人,谢谢!自我研究模拟附上离散类别截图数据截图:运行截图:Svm_config.py""" Filename: Svm Author: kdd_zyx Description: 机器学习 - 支持向量机 Datas:kdd - 随机划分 Start: 2018.10.27 End...原创 2019-10-22 14:02:25 · 1036 阅读 · 0 评论 -
机器学习-贝叶斯模型-西瓜书代码(Bayse)-拉普拉斯修正
以下代码是本人在学习西瓜书时花费两个礼拜根据原理进行原创,若需转载请咨询本人,谢谢!自我研究模拟代码附上离散类别截图数据截图:运行截图:Bayes_config.py""" Filename: Bayes Author: kdd_zyx Description: 机器学习 - 朴素贝叶斯 Datas:kdd - 随机划分 Start: 2018.10.11...原创 2019-10-22 13:04:33 · 690 阅读 · 0 评论 -
机器学习-决策树模型-西瓜书代码(C4.5)-预剪枝修正
以下代码是本人在学习西瓜书时花费两个礼拜根据原理进行原创,若需转载请咨询本人,谢谢!自我研究模拟代码附上离散类别运行截图c45_config.py"""Filename: kdd_configAuthor: kdd_zyxDescription: 机器学习 - C4.5(连续值) - 剪枝Start: 18.10.1End:"""import tim...原创 2019-01-26 14:17:41 · 2266 阅读 · 0 评论 -
终极项目-算法-人工智能五子棋
项目:Al五子棋项目负责人:郑雨轩项目制作时间:6天项目完成时间:18.7.12项目采用语言:Python项目采用主要算法:博弈算法, 最大值最小值算法, 剪枝(Alpha - Beta)算法, 随机算法, 限制搜索边框算法等测试机器计算层数运算时间:一层:秒回二层:秒回三层:2秒(随着棋子的个数和位置而受影响)由于代码重复性与神经网络知识点牵扯运...原创 2018-07-23 20:34:19 · 2693 阅读 · 1 评论 -
网络爬虫-微信公众号-近期文章-MySQL数据库
搜狗微信客户端爬取的网址都是临时接口,为了网址接口长久性,我采用了微信链接转永久接口 import reimport jsonimport timeimport pymysqlimport requestsfrom bs4 import BeautifulSoupfrom ShowapiRequest import ShowapiRequestconfig = { ...原创 2018-07-23 20:37:34 · 1183 阅读 · 0 评论 -
网络爬虫-阿里淘宝-店铺基本信息-本地文件
1.采用Chrome无头浏览模式,后台自动运行2.函数结构化,易于扩展改变3.异常重启,防止崩溃已经封装完毕import refrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverW...原创 2018-08-16 16:41:10 · 4150 阅读 · 1 评论 -
网络爬虫-QQ空间-数据前奏曲-自动登录
网上有许多代码,但很多效果都很差,我自己学着学着摸索了一个,特别要提醒的是,登录经常会失败,这是因为QQ空间反爬虫功能。根据一个大牛解答,Chrome63.0版本发布了重大更新,所以想要批量登陆最好选取Chrome63.0版本的。import timefrom selenium import webdriver# 限制JS与图片加载option = webdriver.ChromeO...原创 2018-08-20 19:03:15 · 274 阅读 · 0 评论 -
网络爬虫-知乎Live-Live评论与观众-MongoDB数据库
1.解析了AjAx动态加载地址2.键值型MongoDB数据库代码如下:首先先获取zhihu-live中的各个Live链接地址import json, timeimport randomimport requestsfrom pymongo import MongoClientclient = MongoClient('localhost', 27017)db = cl...原创 2018-08-20 20:40:53 · 927 阅读 · 2 评论 -
网络爬虫-百度地图-全国地址信息-MySQL数据库
本文仅供学习参考1.采用转文件转MySQL数据库形式存储内容2.爬取速度不宜过快,太快容易失败代码如下:先爬取并将其全部存储至文件中import json, timeimport randomimport requestssix_cities_list = ['北京市', '上海市', '重庆市', '天津市', '香港特别行政区', '澳门特别行政区']prov...原创 2018-08-20 20:46:01 · 4742 阅读 · 2 评论 -
终极项目-测试-多线程、多进程、多协程代码、Redis数据库分布式
学习Scrapy框架前要先了解这些各个提高代码运行方式的内在关系逻辑三种方式同时利用5个(线,进,协)来测试请求50个网页,比较速度首先上多线程:采用的是队列+多线程,这也是分布式爬虫底架常见的使用方法本此多线程采用的是threading框架,也有如_thread等其它框架import timeimport requestsimport threadingimport ...原创 2018-08-20 21:06:46 · 574 阅读 · 0 评论 -
网络爬虫-大众点评-获取美食商铺评论标签与推荐美食-本地Excel表格
1.由于大众点评的反爬虫措施(如Cookie就是必须放入请求头Header中)太过严禁,博主本人在爬取测试过程中IP被封,更换了IP才得以继续测试,并且后来博主在爬取过程中设置了小型防崩溃措施。2.爬取速度不宜太快,爬取次数同一个IP下有限制3.网上好多爬取方法已经失效或者是不怎么关用,博主花下大量时间才得以爬取首先先抓取各个美食商铺的名称、链接、星级、价格、地址等基本信息,并导...原创 2018-08-20 21:21:16 · 3201 阅读 · 3 评论 -
终极项目-游戏-小黄人大作战
通过python基础教程(版本三)学习得到了提升鼠标控制,全屏游戏,关卡游戏,不同的关卡会有不同的小黄人出现,难度也会随之不同有背景音乐,有不同的小黄人图片首先,先把需要的变量定义在config.py中# 游戏squish的配置文件# -------------------------------------# 可根据偏好随意修改配置变量# 如果游戏的节奏太快或太慢, 可...原创 2018-08-14 20:02:23 · 1836 阅读 · 8 评论