- 博客(13)
- 收藏
- 关注
原创 数据处理-Tips-01
数据处理-Tips-01记录一下数据处理中的小函数~数据情况:加入有三列数据,字段分别是0,1的情况~问题1:筛选出这三列中,任意一列为1的情况df1=df[df[['电信','移动','联通']].any(axis='columns')]这样会去掉,三个都为0的情况~问题2:多字段多分类标签问题比如说,我要新增一列,如果该行,电信,移动,联通的值分别为1,0,0,那么就输出 电信def judge_type(x):##x为一个列表 if (x[0]==1) & (x[1
2022-05-16 10:45:43 138 1
原创 Tensorflow基础-01
2022年打算好好学习Deep Learing,所以用博客记录一下,希望到2022年的12月31号结束的时候,能看到自己的学习和成长~ 希望1月能跟着网上大神学习完成tensorflow好pytorch的基础吧~1、标题张量的数据结构程序 = 数据结构+算法。TensorFlow程序 = 张量数据结构 + 计算图算法语言张量和计算图是 TensorFlow的核心概念。Tensorflow的基本数据结构是张量Tensor。张量即多维数组。Tensorflow的张量和numpy中的array很类..
2021-12-31 10:57:57 146
原创 Datawhale异常检测概述
1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的
2021-05-11 10:01:48 164
原创 推荐系统之协同过滤
最近参加了Datawhale新闻推荐的学习,之前自己没有接触过推荐算法相关的内容,所以完全算是个小白,要从基础抓起,所以第一步会跟着组队第一次的学习任务跑一边baseline,然后了解清楚协同过滤算法基本情况吧~协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般是仅仅基于用户的行为数据
2020-11-25 20:26:15 1220
原创 Python-正则表达式库 re
Python 正则表达式介绍正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。开源中国提供的正则表达式测试工具:
2020-10-10 15:53:11 1216
原创 Python爬虫-requests库
记录一下学习过的爬虫知识,方便以后回顾查找~import requestsimport re一、Get请求r=requests.get('http://baidu.com/') #获取百度网址print(type(r)) #类型print(r.status_code) #状态码print(type(r.text))# 响应体的类型print(r.text) #内容print(r.cookies) #cookies1.1 添加params参数data={ 'name':.
2020-10-09 13:50:01 199 1
原创 DataWhale Task5 模型融合
一、模型融合模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:1、简单平均法 2、加权平均法投票:1、简单投票法 2、加权投票法综合:1、排序融合 2、log融合 3、stacking:构建多层模型,并利用预测结果再拟合预测。4、blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。5、boosting/ba
2020-09-27 09:52:21 117
原创 DataWhale Task4建模与调参
目标:1. 学习在金融分控领域常用的机器学习模型2. 学习机器学习模型的建模过程与调参过程一、逻辑回归原理:逻辑回归原理介绍优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;不能用Logistic回归去解决非线性问题,因为Log
2020-09-24 16:39:06 321
原创 DataWhale Task3 特征工程
Task03 啦,希望能坚持学完,继续加油!自己在可视化和时间变量的处理上不太熟练,以后要多多练习呀~先把用到的库调用下 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdm #这个库没怎么用过from sklearn.preprocessing import LabelEncoderfr.
2020-09-21 20:59:58 423
原创 DataWhale Task2 EDA数据探索
代码部分全都用Anaconda 中的Jupyter notebook 完成~一、读取数据1.1 设置jupyter nootbook 显示from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity='all'import pandas as pd pd.set_option('display.max_rows',10000)pd.set_option('.
2020-09-17 22:28:48 274
原创 Datawhale组队学习 Task1分类模型评价指标
第一次这种以组队的方式参与学习,一边打卡一边也相当于以博客的形式记录下自己的学习过程,希望能好好坚持下去吧~一、赛题理解1.1 赛题链接本次组队学习的内容为:数据挖掘实践(金融风控),该内容来自 Datawhale与天池联合发起的 零基础入门数据挖掘 - 贷款违约预测 学习赛的第一场。比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/information项目地址::https://github.com/datawhale
2020-09-15 19:45:15 184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人