- 博客(23)
- 问答 (1)
- 收藏
- 关注
原创 特征处理-分箱
1、最优分箱def optimal_binning_boundary(x, y, nan=-999, params1=10, params2=0.05): ''' 利用决策树获得最优分箱的边界值列表 ''' boundary = [] # 待return的分箱边界值列表 x = x.fillna(nan).values # 填充缺失值 y = y.values clf = DecisionTreeClassifie
2021-08-02 14:02:56 941
原创 变量分析图
def catPlot(df,feature,target, figsize=(14, 6), ylim=False, save=False, filename=None): feature_name = feature.capitalize() df_temp = df.copy() df_temp[feature] = df_temp[feature]#.fillna(-1) tmp = pd.crosstab(df_temp[feature], df_temp[t...
2021-07-09 15:35:37 369
原创 逻辑回归详解
逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连续数字,即概率,类似借款人违约的可能性。然后给这个可能性加上一个阈值,就变成了分类。逻辑回归与线性模型的关系逻辑回归是线性模型,但属于广义线性模型。普通线性模型与广义线性模型的联系:1、普通线性模型普通线性模型的表达式:是截距项,是未知参数。普通线性模型具备以下特点:响应变量y服从正.
2020-10-16 18:35:40 10390 1
原创 样本数据集不平衡处理方式
原始数据中经常存在正负样本不均衡,比如正负样本的数据比例为100:1.常用的解决办法有:1、数据上处理2、权重设置3、集成的思想4、转化成异常检测问题5、利用深度学习:自编码器.6、确定适合样本不平衡问题的评价指标1、数据上处理1.1、数据源: 搜集更多的数据来使数据达到平衡,但是一般出现样本不平衡问题,就是不太可能以一种简单的方法获取到更多的样本(在金融领域,可以思考坏用户的定义是否过于严格)1.2、数据增广: 目前数据增广主要应用于图像领域,...
2020-10-14 15:44:54 4716
原创 数据预处理
1、数据预处理2、特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。...
2020-10-14 15:33:18 8569
原创 排序算法
目录一、插入排序1、直接插入排序2、希尔排序三、选择排序1、简单选择排序2、堆排序三、交换排序1、冒泡排序2、快速排序四、归并排序五、基数排序 一、插入排序1、直接插入排序直接插入排序的核心思想就是:将数组中的所有元素依次跟前面已经排好的元素相比较,如果选择的元素比已排序的元素小,则交换,直到全部元素都比较过。因此,从上面...
2018-11-09 18:34:29 486
原创 爬取猫眼电影相关信息
import jsonimport reimport requestsfrom requests.exceptions import RequestException#定义抓取一个页面代码def get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Apple...
2018-11-07 10:54:01 408
原创 聚类算法
聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在机器学习中被称作 unsupervised learning (无监督学习)通常,人们根据样...
2018-11-02 00:14:41 5004 2
原创 模型融合:stacking&blending
对于机器学习和深度学习来说,用单模型的效果往往都没有进行模型融合后的效果好。对模型来说,我们需要选择具有多样性、准确性的模型,对于融合的方式来说也有很多种,比如最简单的取平均或者投票法就是一种。这里主要讲一下stacking和blending,二者都是用了两层的模型。1.stackingstacking也是一种模型融合的方法,首先,直接用所有的训练数据对第一层多个模型进行k折交叉验证,...
2018-10-08 18:38:36 1818 3
原创 集成学习—Boosting、Bagging
目录集成学习1、Boosting1.1、AdaBoost1.2、GBDT1.3、XGBoost2、Bagging2.1、随机森林3、Boosting与Bagging对比集成学习集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system).如下图,集成...
2018-09-28 17:45:53 2832
原创 决策树—ID3、C4.5、CART
目录一、决策树模型与学习1、决策树模型2、决策树学习 二、特征选择1、信息增益2、信息增益率三、决策树的生成1、ID3算法2、C4.5算法3、CART算法四、决策树停止分裂的条件五、连续值和损失值处理决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,可以认为...
2018-09-28 15:26:04 21889 6
原创 机器学习/数据挖掘知识整理
目录一、常用排序算法二、正负样本不平衡处理方法总结三、过拟合和欠拟合1、过拟合2、欠拟合四、向量的相似度计算常用方法五、模型参数和超参数六、模型评价1、准确率Accuracy、查准率(精确率)precision、查全率(召回率)recall、F1:2、ROC与AUC3、KS(洛伦兹曲线)评分一、常用排序算法二、正负样本不平衡处理方法总结原...
2018-09-21 01:55:40 2821
原创 selenium和pyquery爬取淘宝美食商品信息
1、用selenium自动爬取淘宝美食的商品信息,先定义search方法,该方法用来在搜索框中输入“美食”,然后点击搜索按钮。浏览器加载需要时间,要判断浏览器加载成功再执行下一步的操作,其使用方法可在python-selenium官网查看waits相关的介绍,部分代码复制粘贴即可。设置的条件要在指定的时间内加载出来,否则会抛出异常,使用try回归这个方法。Input为搜索框,submit为搜索
2017-11-22 15:25:31 1485
原创 ajax动态抓取今日头条街拍美图
1、分析网站源码。网站是局部动态变化,offset变化加载内容,变化范围为0,20,40···首先要获取索引页代码数据,定义索引页,由于是ajax请求,offset根据索引变化0、20、40···,用requests获取网页代码,urlcode将字典转换为url请求参数,然后异常处理,根据url_code状态码判断请求是否成功,返回文本格式,最后定义main函数调用。可根据可变
2017-11-20 14:33:34 1817
转载 selenium学习笔记
官方api:http://selenium-python.readthedocs.io/api.html#1、访问网页from selenium import webdriver#声明浏览器对象,使用ie浏览器brower=webdriver.Ie()brower.get('https://taobao.com')print(brower.page_source) #输出
2017-11-16 16:00:24 335 1
转载 利用requests和正则表达式re爬取猫眼电影top100,并下载图片
利用requests和正则表达式re爬取猫眼电影top100,并下载图片
2017-11-15 20:38:34 579
转载 python.scrapy爬虫-xpath查询语法
xpath查询语法1、查询标签中带有某个class属性的标签://div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签 。2、 查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签://div[@class=’c1’][@name=’alex’] 3、 查询某个标签的文本内容://div/span/text()
2017-10-11 13:38:43 542
转载 python网络数据采集学习范例-通过互联网采集
这个程序从http://oreilly.com 开始,然后随机地从一个外链跳到另一个外链from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport datetimeimport randompages = set()random.seed(datetime.datetime
2017-10-08 20:54:55 1071 1
转载 python网络数据学习范例-正则表达式+lambda函数
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html,"html.parser")images = bsObj.fin
2017-10-06 13:58:40 749
空空如也
Python爬虫爬取豆瓣电影
2017-10-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人