![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 80
小伍的五~
菜鸟记录~~~~
展开
-
ipynb文件过大打开浏览器崩溃解决方法
ipynb文件太大浏览器打不开崩溃的解决办法~原创 2021-12-20 18:30:36 · 3188 阅读 · 0 评论 -
Datawhale异常检测概述
1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的原创 2021-05-11 10:01:48 · 141 阅读 · 0 评论 -
推荐系统之协同过滤
最近参加了Datawhale新闻推荐的学习,之前自己没有接触过推荐算法相关的内容,所以完全算是个小白,要从基础抓起,所以第一步会跟着组队第一次的学习任务跑一边baseline,然后了解清楚协同过滤算法基本情况吧~协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般是仅仅基于用户的行为数据原创 2020-11-25 20:26:15 · 1185 阅读 · 0 评论 -
Python-正则表达式库 re
Python 正则表达式介绍正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。开源中国提供的正则表达式测试工具:原创 2020-10-10 15:53:11 · 1194 阅读 · 0 评论 -
Python爬虫-requests库
记录一下学习过的爬虫知识,方便以后回顾查找~import requestsimport re一、Get请求r=requests.get('http://baidu.com/') #获取百度网址print(type(r)) #类型print(r.status_code) #状态码print(type(r.text))# 响应体的类型print(r.text) #内容print(r.cookies) #cookies1.1 添加params参数data={ 'name':.原创 2020-10-09 13:50:01 · 171 阅读 · 1 评论 -
DataWhale Task5 模型融合
一、模型融合模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:1、简单平均法 2、加权平均法投票:1、简单投票法 2、加权投票法综合:1、排序融合 2、log融合 3、stacking:构建多层模型,并利用预测结果再拟合预测。4、blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。5、boosting/ba原创 2020-09-27 09:52:21 · 110 阅读 · 0 评论 -
DataWhale Task4建模与调参
目标:1. 学习在金融分控领域常用的机器学习模型2. 学习机器学习模型的建模过程与调参过程一、逻辑回归原理:逻辑回归原理介绍优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;不能用Logistic回归去解决非线性问题,因为Log原创 2020-09-24 16:39:06 · 291 阅读 · 0 评论 -
DataWhale Task2 EDA数据探索
代码部分全都用Anaconda 中的Jupyter notebook 完成~一、读取数据1.1 设置jupyter nootbook 显示from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity='all'import pandas as pd pd.set_option('display.max_rows',10000)pd.set_option('.原创 2020-09-17 22:28:48 · 240 阅读 · 0 评论 -
Datawhale组队学习 Task1分类模型评价指标
第一次这种以组队的方式参与学习,一边打卡一边也相当于以博客的形式记录下自己的学习过程,希望能好好坚持下去吧~一、赛题理解1.1 赛题链接本次组队学习的内容为:数据挖掘实践(金融风控),该内容来自 Datawhale与天池联合发起的 零基础入门数据挖掘 - 贷款违约预测 学习赛的第一场。比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/information项目地址::https://github.com/datawhale原创 2020-09-15 19:45:15 · 181 阅读 · 0 评论