qq_45820344-CSDN博客

原创 Datawhale dask5

Datawhale dask5 模型融合（好家伙，又是我的盲区）基本知识：简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）分类：投票（Voting)综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:多树的提升方法(1) 简单加权平

2021-03-28 23:36:22 109

原创 DATAWHALE task3 打卡

Task3 特征工程内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程（该部分由于电脑跑不出来，仅仅做阅读，无实践）时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理数据预处理...

2021-03-21 16:42:07 114

原创 Datawhale task 2

今天的知识都是简单的数据分析，回顾即可

2021-03-19 23:44:12 88

原创 Datawhale #数据挖掘第一次打卡

Datawhale #数据挖掘第一次打卡题目理解：混淆矩阵（Confuse Matrix）用“T”“F"“P”"N"来判断结果第一个字母T/F，表示预测的正确与否；第二个字母P/N，表示预测的结果为正例或者负例。如TP就表示预测对了，预测的结果是正例，那它的意思就是把正例预测为了正例准确率（Accuracy）准确率是常用的一个评价指标，但是不适合样本不均衡的情况，医疗数据大部分都是样本不均衡数据。Accuracy=CorrectTotal Accuracy=TP+TNTP+TN

2021-03-16 23:09:30 84

原创 Datawhale第五次打卡

这么难，是怕我学懂吗555开源任务说明学习主题：作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论文作者知识图谱、图关系挖掘创建作者链接的无向图：import networkx as nx # 创建无向图G = nx.Graph()# 只用五篇论文进行构建for row in data.iloc[:500].itertuples(): authors = row[2] authors = ['

2021-01-26 00:37:38 77

原创 Datawhale 第四次打卡

Datawhale 第四次打卡开源任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等；文本分类思路【今天的内容我不是很理解，没接触过lol】先做一下记录思路1：TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征，使用分类器进行分类，分类器的选择上可以使用SVM、LR、XGboost等from sklearn.feature_extraction.text i

2021-01-23 00:31:09 112

原创 Datawhale 第三次打卡

Datawhale 第三次打卡开源任务说明¶任务主题：论文代码统计，统计所有论文出现代码的相关统计；任务内容：使用正则表达式统计代码连接、页数和图表数据；任务成果：学习正则表达式统计；开源内容**重点：1. 正则表达例子：data['pages'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* pages', str(x)))pattern = '[a-zA-z]+://github[^\s]*'2. 筛选

2021-01-19 22:43:11 112 1

原创 Datawhale 第二次打卡

Datawhale 第二次打卡开源：Datawhale开源内容主题：对论文作者统计统计出所有论文作者出现频率Top10的姓名。重点：数据统计统计所有作者姓名出现频率的Top10统计所有作者姓氏的出现频率的Top10统计所有作者姓的第一个字符的频率# 选择类别为cs.CV下面的论文data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]# 拼接所有作者all_authors = sum(data2['auth

2021-01-17 02:41:37 144

原创 Datawhale 第一次打卡

**Datawhale 第一次打卡：开源内容在代码运行的时候不懂的点：1. enumerate：Enumerate is a built-in function of Python.my_list = ['apple', 'banana', 'grapes', 'pear']for c, value in enumerate(my_list, 1): print(c, value)# Output:# 1 apple# 2 banana# 3 grapes#类似于对表进行排列，方

2021-01-13 23:03:54 115

原创 Task 4

关于爬取腾讯热点新闻（因为自己对于这些方面理解不是很透彻，打算以借鉴为主）Datawhale 的代码：import timefrom selenium import webdriverdriver = webdriver.Chrome(executable_path="D:\chromedriver\chromedriver.exe")driver.get("https://news...

2020-04-27 22:38:45 213

原创 Task 3

Task 3学习链接：link为什么会出现IP被封网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问为什么会出现IP被封网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问如何应对IP被封的问题有几种套路：修改请求头，模拟浏览器（而不是代码去直接访问）去访问采用...

2020-04-25 23:29:28 173

原创 Task 2

xPathlinkBeautiful link正则表达relinkXPath:笔记："/“表示文档节点,”.“表示当前节点,而”…"则表示当前节点的父节点.表达式：nodeName 选取名称为nodeName的节点/ 从根节点选取// 选择元素后代元素,必须在后面跟上nodeName. 选取当前节点… 选取当前节点的父节点@ 选取属性节点(@是attribute的缩写...

2020-04-23 20:33:18 582

原创爬虫实践的Task 1

关于爬虫实践的Task 1:学习链接：https://github.com/datawhalechina/team-learning/blob/master/Python%E7%88%AC%E8%99%AB%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/task1/task1.ipynb网页基础：网页是由 HTML 、 CSS 、JavaScript 组成的 HT...

2020-04-21 18:51:43 178

原创 Task5 模型融合

杂乱！！stacking的理解：多个数据的和在一起——>预测新的内容还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。算法示意：（思路：不断的train test 与predict进行比较）如何使得后期的模型拟合更好：5. 次级模型尽量选择简单的线性模型6. 利用K折交叉验证个人理解：运用同一个组，分别取组内...

2020-04-04 20:38:48 133

原创 Datawhale 零基础入门数据挖掘-Task4 建模调参

奥利给，学起来，哈哈哈哈（嗷我的vscode无法调动 numpy 我哭了）相关原理的学习整理：标题线性回归：**主要是记住其代码块 **资料来源：[ https://zhuanlan.zhihu.com/p/49480391 ]最简单的公式：f(x)= w’x+b注：在这里的 w x 都是两个列向量具体的使用：（可回忆大一学过的gay论内容）附： dot是用来进行向量相...

2020-04-01 19:41:57 150

原创 Task 3 打卡

特征工程删除异常值异常值处理代码：def outliers_proc(data,col_name,scale=3)跟着这些代码可以获得以下的结果（eg）特征构造train函数info函数数据分桶link小小的补充log的使用LOG的作用· 调试· 了解软件的运行情况· 分析定位问题过滤one hot 代码；link信息补充特征工程的主要目的是将数...

2020-03-28 21:18:51 109

原创 TASK2 学习打卡计划

datawhale学习/baseline数据的探索性分析（EDA）/baseline（因为是算初学者，我的笔记会特别的幼稚哈哈哈哈。）step1 导入函数工具箱/Step 2:数据读取因为是算初学者，我的笔记会特别的幼稚哈哈哈哈。输入的工具numpy pandas warnings matplotlib seaborn jn display time (基础的）Panda学习链接...

2020-03-24 21:34:02 274

qq_45820344的博客