![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识点梳理
文章平均质量分 63
nilhurui
这个作者很懒,什么都没留下…
展开
-
数据分析笔试题收集(一)
1.请说明随机森林较一般决策树稳定的几点原因随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,根据每个决策树的权重得到最后的分类结果。即随机森林就是由多颗决策树形成的并且随机森林是并行计算多颗决策树。 bagging的方法,多个树投票提高泛化能力 bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力...原创 2018-08-01 19:02:54 · 21596 阅读 · 0 评论 -
常用SQL代码整理
实习期间基于业务的SQL代码整理周报提数1.1某时间段某省的活跃用户数统计口径:活跃用户数 (dmid_client_user_detail_d_yyyymm 客户端细节表,MID层)prov_id字段中15表示江苏省 (ddim_province省份号段表,关联prov_id)msidn字段表示手机号参考代码:SELECT COUNT(DISTINCT( msisdn) ) ...原创 2018-11-23 16:18:11 · 730 阅读 · 0 评论 -
Pandas包中DataFrame 的应用
1.Pandas包中DataFrame 的应用下面都是工作种经常用到的方法,随手记录下来1.1 数据库数据存储 from sqlalchemy import create_engine engine= create_engine("mysql+pymysql://data_user:youruser@192.168.0.255:3306 /data2?charset=utf8"...原创 2018-11-23 15:25:04 · 390 阅读 · 0 评论 -
利用selinum爬取咪咕音乐歌单信息源代码分享
话不多说,直接上代码,咪咕音乐的网页相对简单比较容易爬取这个代码只是比较粗糙的完成了爬取工作,还有很多未完善的地方,因为使用的是ChromeDriver,我们可以直接看到浏览器操作,可以很容易查错执行此代码前请保证已经安装了下列包及ChromeDriver应用程序from selenium import webdriverfrom selenium.common.exceptions ...原创 2018-11-23 15:44:29 · 2339 阅读 · 2 评论