- 博客(27)
- 资源 (5)
- 收藏
- 关注
原创 达观杯比赛复盘专题
达观杯比赛简介特征工程1.构建特征countvectororizerTfidfVectorizerDoc2VecHashingVectorizerlength降维lsa 和 ldaSelectFromModel2.组合特征tfidf(word+article)tfidf(word+article)+lsatfidf(word+article+length)lin...
2018-09-30 17:22:38 1766 2
原创 组合特征(五)countvector(w)+doc(w)+hash(w)
"""将countvector(word)、hash(word)和doc2vec(word)拼接成新特征"""import picklefrom scipy import sparsefrom scipy.sparse import hstack
2018-09-30 17:14:03 641
原创 组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)
"""将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import picklefrom scipy import sparsefrom scipy.sparse import hstackwith open('linearsvm-tfidf(word).pkl', 'rb')as f_1: x_train_1, y_tr...
2018-09-30 17:12:45 1010
原创 组合特征(三)tfidf(word+article+length)
'''特征拼接,拼接文章长度#1.载入特征#2 读文章长度#3 特征缩放,拼接特征'''import pickle# 载入特征with open('tfidf(word+article).pkl','rb') as f: x_train,y_train,y_test = pickle.load(f)# 读取文章长度信息import pandas as pd impo...
2018-09-30 17:12:07 633
原创 组合特征(二)tfidf(word+article)+lsa
"""将tfidf(word+article)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地"""from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()"""=======================================...
2018-09-30 17:11:11 852
原创 组合特征(一)tfidf(word+article)
"""将tfidf(word)和tfidf(article)拼接成新的特征"""import pickleimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer"""=========================================================...
2018-09-30 17:10:05 923
原创 达观杯_分类融合
import osfrom collections import Counterdef read_dir_by_filter(root_dir,filter): file_list = [] for root,dirs,files in os.walk(root_dir): for filepath in files: if(filte...
2018-09-29 16:29:38 1015
原创 达观杯_概率融合
#import pickleimport pandas as pdimport numpy as npimport timepath='D:/daguanbei/data/proba'print('1 读取概率+投票')svm_1 = pd.read_csv(path+'/result_proba_svm_0.779.csv')svm_2 = pd.read_csv(path+...
2018-09-29 16:28:21 867
原创 达观杯_构建模型(四)贝叶斯
"""1.特征:linearsvm-tfidf(word)+lr-tfidf(article) / doc2vec_word2.模型:bayes"""from sklearn.calibration import CalibratedClassifierCVfrom sklearn.model_selection import StratifiedKFoldimport pandas..
2018-09-24 10:57:41 630
原创 达观杯_构建模型(三)lightGBM
countvector(a)+doc(a)+hash(a)"""1.特征:countvector(a)+doc(a)+hash(a)2.模型:lgb"""import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitimport pickleimport light...
2018-09-23 19:35:02 835
原创 达观杯_构建模型(二)逻辑回归
特征:tfidf(word+article)"""1.特征:tfidf(word+article)2.模型:lr3.参数:C=120"""import pandas as pdimport picklefrom sklearn.linear_model import LogisticRegressionwith open('tfidf(word+article).pkl', ...
2018-09-23 19:32:54 1075
原创 达观杯_构建模型(一)linearSVM
特征:tfidf(word)+tfidf(article)"""1.特征:tfidf(word)+tfidf(article)2.模型:linearsvm3.参数:C=5"""from sklearn.svm import LinearSVC # 支持向量机from sklearn.calibration import CalibratedClassifierCVimport p...
2018-09-23 19:30:44 1134
原创 特征工程(七)SelectFromModel
linearsvm"""用linearsvm从tfidf(word)中挑选特征,并将结果保存到本地tfidf(article)可做类似处理"""import timeimport picklefrom sklearn.feature_selection import SelectFromModelfrom sklearn.svm import LinearSVCt_sta...
2018-09-23 19:26:45 3752
原创 特征工程(六)lsa和lda
lsa"""将tfidf(word)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地tfidf(article)可做类似处理"""from sklearn.decomposition import TruncatedSVDimport pickleimport timet_start = time.time()&a
2018-09-23 19:24:11 1541
原创 特征工程(五)length
'''将原始数据的word的长度特征,并将结果保存到本地article特征可做类似处理'''df_train=pd.read_csv('train_set.csv')df_test=pd.read_csv('test_set.csv')def get_word_len(df_series): word_len=[] for row in df_series: wo...
2018-09-23 19:21:11 486
原创 特征工程(四)HashingVectorizer
'''将原始数据的word特征数字化为hash特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import HashingVectorizerimport pickleimport timet_start = time.time()"""======...
2018-09-23 19:19:46 3133
原创 特征工程(三)Doc2Vec
'''将原始数据的word特征数字化为doc2vec特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdimport numpy as npfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentimport timeimport picklet_start = time...
2018-09-23 19:18:59 1102
原创 特征工程(二)TfidfVectorizer
'''将原始数据的word特征数字化为tfidf特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerimport pickleimport timet_start = time.time()"""======...
2018-09-23 19:16:55 1593
原创 特征工程(一)countvectororizer
'''将原始数据的word特征数字化为countvector特征,并将结果保存到本地article特征可做类似处理'''import pandas as pdfrom sklearn.feature_extraction.text import countvectororizerimport pickleimport timet_start = time.time()""...
2018-09-23 19:13:00 3215
翻译 LaTex公式编辑方法
公式排版行内公式∑i=0ni2\sum_{i=0}^{n}i^2∑i=0ni2$\sum_{i=0}^{n}i^2$独立公式E=mc2E=mc^2E=mc2$$E=mc^2$$注:# $ % ^ & ~ \ { } 这些字符有特殊意义,在表示时,需要转义希腊字母上下标和开根号^ 表示上标_ 表示下标\sqrt 表示开根号注:上下标如果多于一个字...
2018-09-20 20:24:55 4169
原创 剑指offer_第20题_包含min函数的栈_Python
题目描述定义栈的数据结构并在该类型中实现一个能够得到栈中所含最小元素的min函数。时间复杂度应为O(1)理解什么是栈算法复杂度解题思路思路1class Solution: def __init__(self): self.stack = [] self.min_stack = [] def push(self,...
2018-09-12 17:40:40 718
原创 剑指offer_第19题_顺时针打印矩阵_Python
题目描述输入一个矩阵按照从外向里以顺时针的顺序依次打印出每一个数字例如,如果输入如下4 X 4矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10....
2018-09-12 11:45:27 528
原创 达观杯_比赛简介
比赛内容此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。评分规则评分算法 binary-classification评分标准 采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。 其中,Pi是表示第i个种类对...
2018-09-11 23:22:29 2326
原创 剑指offer_第18题_二叉树的镜像_Python
题目描述将给定的二叉树,变换为其镜像解题思路思路1 递归class Solution: # 返回镜像树的根节点 def Mirror(self, root): if root: root.left,root.right=root.right,root.left if root.left: ...
2018-09-11 21:33:31 543
原创 剑指offer_第17题_树的子结构_Python
题目描述输入两棵二叉树A,B判断B是不是A的子结构。其中空树不是任意一个树的子结构class TreeNode: def __init__(self, x): self.val = x self.left = None self.right = None解题思路思路1class Solution: def ...
2018-09-11 18:29:49 590
原创 剑指offer_第16题_合并两个排序的链表_Python
题目描述输入两个单调递增的链表输出两个链表合成后的链表合成后的链表满足单调不减规则解题思路思路1递归 def Merge(self, pHead1, pHead2): merge = None if pHead1 == None: return pHead2 elif pHead2 == ...
2018-09-11 16:13:43 450
原创 剑指offer_第15题_反转链表_Python
题目描述输入一个链表,反转链表后,输出新链表的表头。理解怎么反转? 我要找到每个结点改变每个结点的next
2018-09-09 23:04:29 1110 1
机器学习_数学基础_精选教材(概率,线代,微积分)
2018-08-09
Python数据分析与挖掘实战(高清带标签+源代码)
2018-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人