Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

12月 10月 09月 08月 07月 06月

原创达观杯比赛复盘专题

达观杯比赛简介特征工程1.构建特征countvectororizerTfidfVectorizerDoc2VecHashingVectorizerlength降维lsa 和 ldaSelectFromModel2.组合特征tfidf(word+article)tfidf(word+article)+lsatfidf(word+article+length)lin...

2018-09-30 17:22:38 1766 2

原创组合特征（五）countvector(w)+doc(w)+hash(w)

&amp;amp;quot;&amp;amp;quot;&amp;amp;quot;将countvector(word)、hash(word)和doc2vec(word)拼接成新特征&amp;amp;quot;&amp;amp;quot;&amp;amp;quot;import picklefrom scipy import sparsefrom scipy.sparse import hstack

2018-09-30 17:14:03 641

原创组合特征（四）linearsvm-tfidf(word)+lr-tfidf(article)

"""将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import picklefrom scipy import sparsefrom scipy.sparse import hstackwith open('linearsvm-tfidf(word).pkl', 'rb')as f_1: x_train_1, y_tr...

2018-09-30 17:12:45 1010

原创组合特征（三）tfidf(word+article+length)

'''特征拼接，拼接文章长度#1.载入特征#2 读文章长度#3 特征缩放，拼接特征'''import pickle# 载入特征with open('tfidf(word+article).pkl','rb') as f: x_train,y_train,y_test = pickle.load(f)# 读取文章长度信息import pandas as pd impo...

2018-09-30 17:12:07 633

原创组合特征（二）tfidf(word+article)+lsa

"""将tfidf(word+article)特征降维为lsa特征，并将结果保存至本地，并将结果保存到本地"""from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()"""=======================================...

2018-09-30 17:11:11 852

原创组合特征（一）tfidf(word+article)

"""将tfidf(word)和tfidf(article)拼接成新的特征"""import pickleimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer"""=========================================================...

2018-09-30 17:10:05 923

原创达观杯_分类融合

import osfrom collections import Counterdef read_dir_by_filter(root_dir,filter): file_list = [] for root,dirs,files in os.walk(root_dir): for filepath in files: if(filte...

2018-09-29 16:29:38 1015

原创达观杯_概率融合

#import pickleimport pandas as pdimport numpy as npimport timepath='D:/daguanbei/data/proba'print('1 读取概率+投票')svm_1 = pd.read_csv(path+'/result_proba_svm_0.779.csv')svm_2 = pd.read_csv(path+...

2018-09-29 16:28:21 867

原创达观杯_构建模型（四）贝叶斯

"""1.特征：linearsvm-tfidf(word)+lr-tfidf(article) / doc2vec_word2.模型：bayes"""from sklearn.calibration import CalibratedClassifierCVfrom sklearn.model_selection import StratifiedKFoldimport pandas..

2018-09-24 10:57:41 630

原创达观杯_构建模型（三）lightGBM

countvector(a)+doc(a)+hash(a)"""1.特征：countvector(a)+doc(a)+hash(a)2.模型：lgb"""import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitimport pickleimport light...

2018-09-23 19:35:02 835

原创达观杯_构建模型（二）逻辑回归

特征：tfidf(word+article)"""1.特征：tfidf(word+article)2.模型：lr3.参数：C=120"""import pandas as pdimport picklefrom sklearn.linear_model import LogisticRegressionwith open('tfidf(word+article).pkl', ...

2018-09-23 19:32:54 1075

原创达观杯_构建模型（一）linearSVM

特征：tfidf(word)+tfidf(article)"""1.特征：tfidf(word)+tfidf(article)2.模型：linearsvm3.参数：C=5"""from sklearn.svm import LinearSVC # 支持向量机from sklearn.calibration import CalibratedClassifierCVimport p...

2018-09-23 19:30:44 1134

原创特征工程（七）SelectFromModel

linearsvm"""用linearsvm从tfidf(word)中挑选特征，并将结果保存到本地tfidf(article)可做类似处理"""import timeimport picklefrom sklearn.feature_selection import SelectFromModelfrom sklearn.svm import LinearSVCt_sta...

2018-09-23 19:26:45 3752

原创特征工程（六）lsa和lda

lsa&quot;&quot;&quot;将tfidf(word)特征降维为lsa特征，并将结果保存至本地，并将结果保存到本地tfidf(article)可做类似处理&quot;&quot;&quot;from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()&a

2018-09-23 19:24:11 1541

原创特征工程（五）length

'''将原始数据的word的长度特征，并将结果保存到本地article特征可做类似处理'''df_train=pd.read_csv('train_set.csv')df_test=pd.read_csv('test_set.csv')def get_word_len(df_series): word_len=[] for row in df_series: wo...

2018-09-23 19:21:11 486

原创特征工程（四）HashingVectorizer

'''将原始数据的word特征数字化为hash特征，并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import HashingVectorizerimport pickleimport timet_start = time.time()"""======...

2018-09-23 19:19:46 3133

原创特征工程（三）Doc2Vec

'''将原始数据的word特征数字化为doc2vec特征，并将结果保存到本地article特征可做类似处理'''import pandas as pdimport numpy as npfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentimport timeimport picklet_start = time...

2018-09-23 19:18:59 1102

原创特征工程（二）TfidfVectorizer

'''将原始数据的word特征数字化为tfidf特征，并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerimport pickleimport timet_start = time.time()"""======...

2018-09-23 19:16:55 1593

原创特征工程（一）countvectororizer

'''将原始数据的word特征数字化为countvector特征，并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import countvectororizerimport pickleimport timet_start = time.time()""...

2018-09-23 19:13:00 3215

翻译 LaTex公式编辑方法

公式排版行内公式∑i=0ni2\sum_{i=0}^{n}i^2∑i=0ni2$\sum_{i=0}^{n}i^2$独立公式E=mc2E=mc^2E=mc2$$E=mc^2$$注：# $ % ^ & ~ \ { } 这些字符有特殊意义，在表示时，需要转义希腊字母上下标和开根号^ 表示上标_ 表示下标\sqrt 表示开根号注：上下标如果多于一个字...

2018-09-20 20:24:55 4169

原创剑指offer_第20题_包含min函数的栈_Python

题目描述定义栈的数据结构并在该类型中实现一个能够得到栈中所含最小元素的min函数。时间复杂度应为O（1）理解什么是栈算法复杂度解题思路思路1class Solution: def __init__(self): self.stack = [] self.min_stack = [] def push(self,...

2018-09-12 17:40:40 718

原创剑指offer_第19题_顺时针打印矩阵_Python

题目描述输入一个矩阵按照从外向里以顺时针的顺序依次打印出每一个数字例如，如果输入如下4 X 4矩阵： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10....

2018-09-12 11:45:27 528

原创达观杯_比赛简介

比赛内容此次比赛，达观数据提供了一批长文本数据和分类信息，希望选手动用自己的智慧，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。评分规则评分算法 binary-classification评分标准采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。其中，Pi是表示第i个种类对...

2018-09-11 23:22:29 2326

原创剑指offer_第18题_二叉树的镜像_Python

题目描述将给定的二叉树，变换为其镜像解题思路思路1 递归class Solution: # 返回镜像树的根节点 def Mirror(self, root): if root: root.left,root.right=root.right,root.left if root.left: ...

2018-09-11 21:33:31 543

原创剑指offer_第17题_树的子结构_Python

题目描述输入两棵二叉树A，B判断B是不是A的子结构。其中空树不是任意一个树的子结构class TreeNode: def __init__(self, x): self.val = x self.left = None self.right = None解题思路思路1class Solution: def ...

2018-09-11 18:29:49 590

原创剑指offer_第16题_合并两个排序的链表_Python

题目描述输入两个单调递增的链表输出两个链表合成后的链表合成后的链表满足单调不减规则解题思路思路1递归 def Merge(self, pHead1, pHead2): merge = None if pHead1 == None: return pHead2 elif pHead2 == ...

2018-09-11 16:13:43 450

原创剑指offer_第15题_反转链表_Python

题目描述输入一个链表，反转链表后，输出新链表的表头。理解怎么反转？我要找到每个结点改变每个结点的next

2018-09-09 23:04:29 1110 1

用Python解决数据结构与算法问题

一本关于python版本极佳的数据结构和算法相关教材而掌握算法和数据结构是拿到好offer必备的核心技能！

2018-08-22

机器学习_数学基础_精选教材(概率，线代，微积分)

普林斯顿微积分读本高清中文版概率论与数理统计 - 陈希孺 MIT线性代数导论_Introduction to Linear Algebra, 4th 每一本都是经典之作，和国内同济版相比，通俗易懂，易于自学。奠定机器学习数学基础，三本教材就够了！！！

2018-08-09

Airbnb 新用户的民宿预定预测-数据集

Airbnb 新用户的民宿预定预测 kaggle比赛完整数据集主要包含5个csv文件

2018-06-20

Python数据分析与挖掘实战(高清带标签+源代码)

10余位数据挖掘领域资深专家和科研人员，10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发，以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线，深入浅出介绍Python数据挖掘建模过程，实践性极强。本书共15章，分两个部分：基础篇、实战篇。基础篇介绍了数据挖掘的基本原理，实战篇介绍了一个个真实案例，通过对案例深入浅出的剖析，使读者在不知不觉中通过案例实践获得数据挖掘项目经验，同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中，应充分利用随书配套的案例建模数据，借助相关的数据挖掘建模工具，通过上机实验，以快速理解相关知识与理论。基础篇（第1～5章），第1章的主要内容是数据挖掘概述；第2章对本书所用到的数据挖掘建模工具Python语言进行了简明扼要的说明；第3章、第4章、第5章对数据挖掘的建模过程，包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇（第6～15章），重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上，本书是按照先介绍案例背景与挖掘目标，再阐述分析方法与过程，最后完成模型构建的顺序进行的，在建模过程的关键环节，穿插程序实现代码。最后通过上机实践，加深读者对数据挖掘技术在案例应用中的理解。

2018-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人