数据基础
菀青
这个作者很懒,什么都没留下…
展开
-
决策树随机森林
一、节点字段的选择(ID3算法)1.信息增益信息熵:H(p1,p2,...,pn)=−∑k=1kpklog2pk H(p_{1},p_{2},...,p_{n})= - \sum_{k=1}^{k}p_{k}log_{2}p_{k}H(p1,p2,...,pn)=−k=1∑kpklog2pk对于某个事件,有k个可能值,pk表示k个可能值的发生概率。在实际应用中,会将概率pk的...原创 2020-10-05 19:52:08 · 149 阅读 · 0 评论 -
逻辑回归(Logistic回归)
逻辑回归Logit函数h(x)被称为logistic回归模型将线性回归模型的预测值经过非线性的logistic函数转换为(0,1]之间的概率值,因变量取1和0的条件概率分别用h(x)和1-h(x)表示将logistic回归模型还原成线性回归:优势odds,发生比概率值是关于h(X)的函数,即事件发生的概率函数,当某个事件发生时,y=1,h(X)1.最大似然估计为了求解\...原创 2019-10-21 16:24:55 · 2256 阅读 · 0 评论 -
LASSO回归
逻辑回归添加l2正则的惩罚项,不管怎么缩减,都会保留建模时的所有变量,无法降低模型复杂度。LASSO回归,不重要的回归系数缩减为0。LASSO回归模型的目标函数:使用坐标轴下降法:迭代算法,坐标轴下降法是沿着坐标轴下降,梯度下降是沿着梯度的负方向下降,对于p维参数的可微凸函数J(B)而言,如果存在一点B,使得函数J(B)在每个坐标轴上均达到最小值,则J(B)就是B上的全局最小值。坐标...原创 2019-09-28 14:46:56 · 5715 阅读 · 1 评论 -
岭回归
岭回归线性回归模型的参数估计公式得到B的前提是矩阵可逆。出现自变量个数多余样本量或者自变量间存在多重共线性,无法根据公式计算回归系数的估计值B。#行列式等于或近似为0,逆矩阵趋于无穷大,回归系数也放大。1.参数求解在线性回归模型的目标函树上添加l2正则项(惩罚项)其中\lambda为非负数,当\lambda=0时,该目标函数就退化为线性回归模型的目标函数,当\lambda趋于正无...原创 2019-09-27 19:06:35 · 3665 阅读 · 0 评论 -
数据挖掘笔记之表处理
透视表diamonds.csv透视表pd.pivot_table(data,values,index,columns,aggfunc,fill_value,margins,dropna,margins_name)values:拉入统计项的字段index:拉入行标签columns:拉入列标签aggfunc:统计函数fill_values:填充缺失值margins:显示总计值...原创 2019-07-27 08:39:28 · 122 阅读 · 0 评论 -
数据挖掘笔记之简单数据清洗
判断数据是否有重复值any(df.deplicated())#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。删除重复项df.drop_deplicates(inplace=True)缺失值删除法:比例小于5%或大于85%替换法:连续变量使用均值和中位数,离散使用众数插补法:回归插补,K邻近插补,拉格朗日插补判断是否有缺失值any(df.is...原创 2019-07-26 16:33:54 · 334 阅读 · 0 评论 -
数据挖掘笔记之Pandas
Pandas索引方式:ser = pd.Series([1,2,3,4])ser[[0,1]]读取txt,csv:pd.read_table(filepath,sep,header,names,index_col,usecols,dtype,converters,skiprows, skipfooter,nrows,na_values,skip_blank_lines,parse_...原创 2019-07-26 10:48:30 · 203 阅读 · 1 评论 -
数据挖掘笔记之Numpy
数组np.array(((1,2))) #二维数组arr[1,2] #取第二行、第三列的元素arr[np.ix_([0,1],[1,2])] #取第一二行和第二三行列np.genfromtxt(fname,dtype,comments,delimiter,skip_header,skip_footer,converters,missing_values,filling_valu...原创 2019-07-25 10:35:29 · 155 阅读 · 0 评论 -
自定义函数的参数
自定义函数的几种参数:①必选参数②默认参数③可变参数#任意个数据和def adds(*args): print(args) s = sum(args) return s*args:可变参数,接纳任意个数的实参,捆绑为元组。④关键字参数#组装到一个字典中def info_collection(tel,birthday,**kargs): user_info = {} u...原创 2019-07-24 21:22:51 · 2157 阅读 · 0 评论 -
数据挖掘笔记之基本数据格式(列表和字典)
列表列表的索引方式:①切片索引[start:end:step]包括start,不包括end。无法取得最后一个元素。②无限索引[::step]列表基本语法:list.append(1) #只能添加一个元素list.extend([]) #列表添加list.pop() #删除末尾元素list.pop(1) #删除指定位置list.remove() #删除指定元素lis...原创 2019-07-23 21:49:16 · 318 阅读 · 0 评论 -
爬虫学习笔记
URL统一资源定位符,是对互联网上得到的资源位置和访问方法的表示,是网上标准资源的地址。由三部分组成:①协议,②存有该资源的主机IP地址,③主机资源的具体地址。import urllibresponse = urllib.request.urlopen('http://www.baidu.com')print(response.read())urlopen(url, data, tim...转载 2019-07-01 09:28:58 · 69 阅读 · 0 评论 -
正则表达式笔记
对字符串操作的逻辑公式。语法规则.匹配除\n之外的字符\转义符,使用r[…]字符集,任意字符,可逐个列出,可范围[^…]取反预定义字符集,可写在[…]中\d[0-9]\D[^\d]\s空白字符,\t \r \n \f \v\S非空白字符[^\s]\w单词字符[A-Z a-z 0-9]\...原创 2019-06-28 17:30:03 · 110 阅读 · 0 评论 -
数据结构
研究数据信息如何表示、组织、存储、加工和数据之间的逻辑关系。分为线性结构和非线性结构。1.线性结构线性结构:元素与元素之前是一对一的关系。分为线性表、栈和队列。(1)线性表a0→a1→…→an存在唯一的第一元素a0存在唯一的最后元素an各元素均有唯一的后继各元素均有唯一的前驱(2)栈操作受限的线性表LIFO:后进先出限定仅在表尾进行插入或删除操作的线性表,后进先出。入栈...翻译 2019-06-11 18:41:07 · 122 阅读 · 0 评论