- 博客(120)
- 收藏
- 关注
原创 聚类性能评价指标
本文将介绍几种常见的聚类评价指标:Purity,NMI,RI,Precision,Recall,F,ARI,Accuracy。
2021-03-17 21:45:08 2854
原创 Datawhale新闻推荐竞赛学习总结:特征工程
特征工程和数据清洗转换是比赛中至关重要的一块, 因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果,特征工程可以一步增强数据的表达能力,通过构造新特征,我们可以挖掘出数据的更多信息,使得数据的表达能力进一步放大。
2020-12-03 11:43:23 468
原创 Datawhale新闻推荐竞赛学习总结:多路召回
- 推荐系统读取数据的三种模式- 几种不同的召回策略:基于关联顾泽的itemCF、基于关联规则的userCF、youtubeDNN召回、冷启动召回- 多路召回合并
2020-11-30 19:24:50 693 3
原创 Datawhale新闻推荐竞赛学习总结:Baseline
- 推荐算法:ItemCF,如何计算相似度,如何根据用户历史交互行为推荐- code:读取采样数据,df 内存优化,Python进度条 tqdm库
2020-11-25 21:52:21 399 1
原创 HTTP协议与HTTPS 协议
- HTTP(HyperText Transfer Protocol:超文本传输协议)被用于在Web浏览器和网站服务器之间传递信息,HTTP协议以明文方式发送内容,不提供任何方式的数据加密。- HTTPS(Hypertext Transfer Protocol Secure:超文本传输安全协议)是一种透过计算机网络进行安全通信的传输协议。HTTPS 经由 HTTP 进行通信,但利用 SSL/TLS 来加密数据包。SSL依靠证书来验证服务器的身份,并为浏览器和服务器之间的通信加密。
2020-11-22 09:24:07 1300 1
原创 Python自然语言处理库 gensim核心概念
gensim 的核心概念包括:- Document:一些文本(text)。- Corpus:文档(documents)的集合。- Vector:文档(documents)的一种数学上方便的表示。- Model::一种将向量(Vector)从一种表示转换为另一种表示的算法。
2020-11-06 21:43:51 816
原创 链表
- 带环链表:链表是否有环,环的长度,环的入口点,链表的长度- 反转链表- 链表中倒数第k个结点- 合并有序链表- 两个链表的第一个公共结点
2020-10-23 19:59:24 347 1
原创 LeetCode数学问题(Python)
- 公倍数与公因数- 质数- 数字处理:Boyer-Moore 投票算法- 随机与取样:Fisher-Yates 洗牌算法,蓄水池抽样算法,用一个随机数生成器生成另一个随机数生成器- 浮点数在计算机中的存储,Python精度控制
2020-10-08 21:56:53 2905
原创 回溯、深度优先搜索、递归、栈
- 深度优先搜索、递归、栈三者之间的关系。- 回溯与深搜,回溯模板,使用Python编程回溯的注意事项。- 回溯经典LeetCode题目。
2020-09-21 22:12:05 895
原创 单调栈与单调队列算法详解及LeetCode经典题目(Python)
- 单调栈:求出某个数的左边或右边第一个比它大或小的元素。- 单调队列:区间最大值最小值问题。
2020-09-10 16:54:53 2413 3
原创 动态规划系列:LeetCode经典题目,使用Python
- 动态规划思想- 子序列与子数组- 字符串- 若干不相邻的数和最大- 零钱兑换- 股票买卖最佳时机- 等差数列- 图dp
2020-08-27 12:15:00 1268
原创 字符串匹配:KMP算法
- KMP是一种字符串匹配算法。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。- Python实现KMP算法。
2020-08-24 22:19:55 273
原创 动态规划系列:背包九讲,使用Python
-01背包- 完全背包- 多重背包:二进制优化、单调栈优化- 混合背包- 二维费用的背包问题- 分组背包- 有依赖的背包问题- 背包问题的方案数- 求背包问题的具体方案
2020-08-24 00:22:44 730
原创 MySQL表记录的更新操作(增删改)
1. 使用insert...into.../replace插入新记录2. update表记录修改3. delete删除表记录/ truncate清空表记录4. LeetCode题目
2020-08-02 18:15:18 1626
原创 Python-sklearn中的Pipeline
Python的`sklearn.pipeline.Pipeline()`函数将多个学习器组成流水线,所谓流水线即数据在前一个节点处理之后的结果,转到下一个节点处理。
2020-07-31 23:21:12 1887
原创 超参数选择:网格搜索GridSearchCV
.Grid Search网格搜索,在所有候选的参数选择中,通过循环遍历,对每一种可能的参数在训练集上训练一个模型,在测试集上表现最好的参数就是最优的参数。模型最终的表现好坏与初始数据训练集和测试集的划分有很大的关系(测试集数据没有被训练,可能有偏差)。Grid Search 调参方法存在的共性弊端就是:耗时;参数越多,候选值越多,耗费时间越长!所以,一般情况下,先定一个大范围,然后再细化。.GridSearchCVgrid search with cross validation,将网格搜索
2020-07-27 21:53:58 3927
原创 scikit-learn文本特征提取:CountVectorizer与TfidfVectorizer
文本特征提取函数CountVectorizer、TfidfVectorizer参数详细
2020-07-26 19:38:35 844
原创 位运算
Python位运算符运算符描述实例(a = 0011 1100,b = 0000 1101)&按位与运算符:参与运算的两个值,如果两个相应位都为1,则该位的结果为1,否则为0(a & b) 输出结果 12 ,二进制解释: 0000 1100按位或运算符:只要对应的二个二进位有一个为1时,结果位就为1。(a | b) 输出结果 61 ,二进制解释: 0011 1101^按位异或运算符:当两对应的二进位相异时,结果为1(a ^ b) 输出结果 49
2020-07-26 12:42:40 277
原创 Python处理HDF5文件:h5py库
HDF是一种为存储和处理大容量科学数据设计的文件格式及相应库文件。h5py是Python 中操作和使用 HDF5 数据的工具库,读写速度快、压缩效率高。
2020-07-22 12:59:36 23468 1
原创 MemoryError的处理方式
MemoryError几种处理方式:1. 低精度保存数据;2. 更新Python为64位;3. 修改PyCharm运行内存;4. 扩充虚拟内存;5. 优化数据读取方式;6. 手动回收变量。
2020-07-21 09:54:32 15003
翻译 训练深度学习神经网络时如何选择损失函数
1. 回归的损失函数:均方误差损失,平均平方对数误差损失,平均绝对误差损失;2. 二值分类损失函数:二叉熵、Hinge损失、Squared Hinge损失;3. 多类分类损失函数:多类交叉熵损失、稀疏多类交叉熵损失、Kullback Leibler散度损失。
2020-07-17 23:11:06 10901 1
原创 Python标准库及第三方库速查
- 标准库- 科学计算:Numpy/Pandas/scipy- 机器学习库:sklearn- 数据可视化:Matplotlib/pyecharts/Seaborn
2020-07-13 22:43:25 819
原创 内存与显存、CPU与GPU、GPU与CUDA
GPU是一种专门进行图像运算工作的微处理器。把浮点运算做一些处理,包装成图形渲染任务,然后再交给GPU来做,这样GPU就可以做浮点运算,不过这样要求有一定的图形学知识。为了让不懂图形学知识的人也能体验到GPU运算的强大,Nvidia公司又提出了CUDA的概念。
2020-07-13 21:38:50 24802 1
原创 Docsify安装及个人博客搭建
使用docsify搭建个人博客,并部署到GitHub,涉及Git的安装、Node.js的安装、docsify的安装和使用。
2020-07-13 17:16:10 4048
原创 Keras Model类中的fit()与fit_generator()、predict()与predict_generator()
Keras Model类中的fit()与fit_generator()、predict()与predict_generator(),函数详细参数
2020-07-11 20:19:50 8366
原创 Python实现并查集
并查集是一种树型的数据结构,用于处理一些不交集的合并及查询问题。并查集用集合中的某个元素来代表一个集合,该元素称为集合的代表元;一个集合内的所有元素组织成以代表元为根的树形结构。
2020-07-09 23:55:53 2808 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人