自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Datawhale dask5

Datawhale dask5 模型融合(好家伙,又是我的盲区)基本知识:简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法(1) 简单加权平

2021-03-28 23:36:22 92

原创 DATAWHALE task3 打卡

Task3 特征工程内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程(该部分由于电脑跑不出来,仅仅做阅读,无实践)时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理数据预处理...

2021-03-21 16:42:07 93

原创 Datawhale task 2

今天的知识都是简单的数据分析,回顾即可

2021-03-19 23:44:12 70

原创 Datawhale #数据挖掘 第一次打卡

Datawhale #数据挖掘 第一次打卡题目理解:混淆矩阵(Confuse Matrix)用“T”“F"“P”"N"来判断结果第一个字母T/F,表示预测的正确与否;第二个字母P/N,表示预测的结果为正例或者负例。如TP就表示预测对了,预测的结果是正例,那它的意思就是把正例预测为了正例准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况,医疗数据大部分都是样本不均衡数据。Accuracy=CorrectTotal Accuracy=TP+TNTP+TN

2021-03-16 23:09:30 73

原创 Datawhale第五次打卡

这么难,是怕我学懂吗555开源任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘创建作者链接的无向图:import networkx as nx # 创建无向图G = nx.Graph()# 只用五篇论文进行构建for row in data.iloc[:500].itertuples(): authors = row[2] authors = ['

2021-01-26 00:37:38 56

原创 Datawhale 第四次打卡

Datawhale 第四次打卡开源任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;文本分类思路【今天的内容我不是很理解,没接触过lol】先做一下记录思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等from sklearn.feature_extraction.text i

2021-01-23 00:31:09 88

原创 Datawhale 第三次打卡

Datawhale 第三次打卡开源任务说明¶任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;开源内容**重点:1. 正则表达例子:data['pages'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* pages', str(x)))pattern = '[a-zA-z]+://github[^\s]*'2. 筛选

2021-01-19 22:43:11 73 1

原创 Datawhale 第二次打卡

Datawhale 第二次打卡开源:Datawhale开源内容主题: 对论文作者统计统计出所有论文作者出现频率Top10的姓名。重点:数据统计统计所有作者姓名出现频率的Top10统计所有作者姓氏的出现频率的Top10统计所有作者姓的第一个字符的频率# 选择类别为cs.CV下面的论文data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]# 拼接所有作者all_authors = sum(data2['auth

2021-01-17 02:41:37 118

原创 Datawhale 第一次打卡

**Datawhale 第一次打卡:开源内容在代码运行的时候不懂的点:1. enumerate:Enumerate is a built-in function of Python.my_list = ['apple', 'banana', 'grapes', 'pear']for c, value in enumerate(my_list, 1): print(c, value)# Output:# 1 apple# 2 banana# 3 grapes#类似于对表进行排列,方

2021-01-13 23:03:54 96

原创 Task 4

关于爬取腾讯热点新闻(因为自己对于这些方面理解不是很透彻,打算以借鉴为主)Datawhale 的代码:import timefrom selenium import webdriverdriver = webdriver.Chrome(executable_path="D:\chromedriver\chromedriver.exe")driver.get("https://news...

2020-04-27 22:38:45 191

原创 Task 3

Task 3学习链接:link为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题 有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用...

2020-04-25 23:29:28 150

原创 Task 2

xPathlinkBeautiful link正则表达relinkXPath:笔记:"/“表示文档节点,”.“表示当前节点,而”…"则表示当前节点的父节点.表达式:nodeName 选取名称为nodeName的节点/ 从根节点选取// 选择元素后代元素,必须在后面跟上nodeName. 选取当前节点… 选取当前节点的父节点@ 选取属性节点(@是attribute的缩写...

2020-04-23 20:33:18 315

原创 爬虫实践的Task 1

关于爬虫实践的Task 1:学习链接:https://github.com/datawhalechina/team-learning/blob/master/Python%E7%88%AC%E8%99%AB%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/task1/task1.ipynb网页基础:网页是由 HTML 、 CSS 、JavaScript 组成的 HT...

2020-04-21 18:51:43 142

原创 Task5 模型融合

杂乱!!stacking的理解:多个数据的和在一起——>预测新的内容还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起,这个方法就是Stacking。算法示意:(思路:不断的train test 与predict进行比较)如何使得后期的模型拟合更好:5. 次级模型尽量选择简单的线性模型6. 利用K折交叉验证个人理解:运用同一个组,分别取组内...

2020-04-04 20:38:48 118

原创 Datawhale 零基础入门数据挖掘-Task4 建模调参

奥利给,学起来,哈哈哈哈(嗷 我的vscode无法调动 numpy 我哭了)相关原理的学习整理:标题线性回归:**主要是记住其代码块 **资料来源:[ https://zhuanlan.zhihu.com/p/49480391 ]最简单的公式:f(x)= w’x+b注: 在这里的 w x 都是两个列向量具体的使用:(可回忆大一学过的gay论内容)附: dot是用来进行向量相...

2020-04-01 19:41:57 133

原创 Task 3 打卡

特征工程删除异常值异常值处理代码:def outliers_proc(data,col_name,scale=3)跟着这些代码可以获得以下的结果(eg)特征构造train函数info函数数据分桶link小小的补充log的使用LOG的作用· 调试· 了解软件的运行情况· 分析定位问题过滤one hot 代码;link信息补充特征工程的主要目的是将数...

2020-03-28 21:18:51 99

原创 TASK2 学习打卡计划

datawhale学习/baseline数据的探索性分析(EDA)/baseline(因为是算初学者,我的笔记会特别的幼稚哈哈哈哈。)step1 导入函数工具箱/Step 2:数据读取因为是算初学者,我的笔记会特别的幼稚哈哈哈哈。输入的工具numpy pandas warnings matplotlib seaborn jn display time (基础的)Panda学习链接...

2020-03-24 21:34:02 256

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除