自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

来自Daisy和她的单程车票

正在探索机器学习和深度学习的奥妙。

  • 博客(88)
  • 资源 (23)
  • 收藏
  • 关注

原创 spark改写 心血管疾病预测

python版传送门:https://www.kesci.com/home/project/5da974e9c83fb400420f77d3package dataclear/** * @CreateUser: eshter * @CreateDate: 2019/10/23 * @UpdateUser: */import utils.session.IgnoreErrorAnd...

2019-12-05 14:13:56 934 3

原创 spark 改写 信用违约预测

信用违约预测传送门:https://www.kesci.com/home/project/5dadfeb675df5c002b20fa45package LittleTask/** * @CreateUser: eshter * @CreateDate: 2019/10/29 * @UpdateUser: */import org.apache.log4j.{Level, Lo...

2019-12-05 14:10:35 295

原创 spark 改写版 电信用户流失预测

参考链接:https://github.com/baopuzi/Telco_Customer_Churn/blob/master/tele_customer_churn_analysis.ipynb背景:https://zhuanlan.zhihu.com/p/68397317package bikedmtsparkjob.yufang.LittleTask/** * @CreateUs...

2019-12-05 14:08:37 561 3

原创 上海临港人工智能开发者大会(百度+英伟达+亚马逊的官方workshop和hackathon)

有大佬演讲及公开课,又有百度+英伟达+亚马逊的官方workshop和hackathon,在上海临港这样一个美丽而且安静的地方,对于开发者们的年底充电再合适不过了https://mp.weixin.qq.com/s/rM2jsAMi_zvjHw__u56YPA...

2019-11-27 15:55:38 300

原创 spark特征工程处理流程

一、特征工程查看数据的分布1df.describe().show()2df.summary().show() //这个显示比describe更全1 唯一值删除移除列特征中只有一个值的列 1 2`def UniqueValueRemove(df:DataFrame)={ 3 4 val df_ttmp=df.select(df.columns.map(c=>cou...

2019-11-08 11:25:28 440

原创 spark xgbboostClassifier参数设置

spark的XGBClassifier参数如下alpha -> 0.0 // learning ratemin_child_weight -> 1.0sample_type -> uniformbase_score -> 0.5colsample_bylevel -> 1.0grow_policy -> depthwiseskip_drop -&g...

2019-10-27 15:50:14 2513 1

原创 spark 行转列

StructType //注意这种方案解决的是形如下面myScore这样的扩展 /* root |-- age: long (nullable = true) |-- myScore: array (nullable = true) | |-- element: struct (containsNull = true)...

2019-10-27 15:37:49 519

原创 spark 填充缺失值系列

填充均值 //连续值填充均值 def ContinuousMissValueProcessingMean(df:DataFrame,douCols:Array[String]):DataFrame= { println("----连续值填充均值----开始-----") val meanDF = df.select((douCols)...

2019-10-27 15:35:15 2423

原创 spark gbdt 自定义阈值 取出模型概率,并转换label

在大家使用spark 的时候,会发现,ML库下的模型生成的概率是一个Vector,那么如何将这个Vector的概率为1的那一列取出呢?并且自定义阈值,按照这个阈值切分得到label的0,1类呢?这时候udf函数就派上了很好的用场,废话不多说,直接上代码取出Vector 的第n列,生成新的dataframe切分Vector得到每一列的值,形如调用下面的代码生成features,对feature...

2019-10-12 14:20:10 911

原创 spark调度的参数说明

一、spark 调度1 spark 参数说明参数名参数说明–mastermaster 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local–deploy-mode在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client–class应用程序的主类,仅针对 java 或 sc...

2019-10-12 14:07:57 329 1

原创 mac成功解决 AttributeError: module 'enum' has no attribute 'IntFlag'?

在mac中,当覆盖掉mac自带的python2.7后,在终端输入 python ,会出现AttributeError: module ‘enum’ has no attribute ‘IntFlag’?错误该问题解决如下:进入bash_profile vim ~/.bash_profile在该文件中找到pythonpath,把它删掉,即把图中标红处删掉然后在终端输入source ~...

2019-08-20 19:37:38 1403

原创 解决mac 安装lightgbm image not found问题

参考链接:https://blog.csdn.net/leowinbow/article/details/89020708

2019-08-20 19:26:33 1108 1

原创 世界人工智能大会期间,8.31下午(周六)世博中心红厅,给AI程序员们量身定制的超强阵容的AI开发者大会,贾扬清、Alex Smola、Julia语言作者等大牛进行分享

世界人工智能大会期间,8.31下午(周六)世博中心红厅,给AI程序员们量身定制的超强阵容的AI开发者大会,贾扬清、Alex Smola、Julia语言作者等大牛进行分享,欢迎点击链接报名。https://mp.weixin.qq.com/s/ilV-ICzcXYqM4FIdQBOzfg...

2019-08-20 14:43:21 270

原创 set与list--[交并差]

set的union,intersection,difference操作要比list的迭代要快。因此如果涉及到求list交集,并集或者差的问题可以转换为set来操作如:

2019-08-19 13:58:35 130

原创 pandas value_counts vs numpy in1d

df[‘report_month’].value_counts()np.in1d(normal_reports[‘report_month’],3).sum()

2019-08-19 13:54:12 175

原创 mac电脑chrome截长图

参考链接:https://www.jianshu.com/p/92d38cece03b

2019-08-09 20:22:03 485

原创 pandas实用trick

pandas实用trick1.向量操作有一组数据,需要实现如下功能:"Time"是日期-时分秒的格式,现在要求把"Time"拆为日期和时分秒两列,“day"和"hhmmss”。采用iloc,iterrows、itertuple、apply实现上述功能,并对其进行性能比较。 import pandas as pd column = ['Time', 'val1', 'val2', 'v...

2019-08-03 17:25:21 268

原创 pandas 正则化匹配 行转列

pandas 正则化匹配 行转列有如下一个题目:df=pd.DataFrame({‘id’:[{1,2,3,},{5,6,7},{9,10,11},[{12},{13},{15}]],‘value’:[1,2,3,4]})需实现如下功能:id value1 12 13 15 26 2…实现代码如下df['id']= df['id'].apply...

2019-08-02 13:50:58 1105 1

原创 新疆旅游攻略与建议

以下是7.14-7.23从上海到新疆旅行的行程【第一站】吐鲁番【出行方式】飞机(从黄花国际机场-吐鲁番机场)【住宿】-旅人青旅(老板是一个活泼开朗的云南妹子,特别热心介绍新疆的旅游景点,以及青旅附近的美食)-吐鲁番机场打的30元+即可抵达【景点游玩】1.火焰山-库木塔格沙漠2.吐鲁番博物馆 -干尸时间:一天火焰山中午和下午的颜色不一样,由于时间的关系,我们就远远的观望了一下火焰山,...

2019-07-28 11:23:49 641

原创 hsql rank排序&lag and lead

一、rank 排序1. row_number() over()在各个分组内从1开时排序也可不分组进行排序,给样本小到大无重复值进行排序A 101 1 A 102 2 A 103 3 A 104 4 A 105 5 B 209 1 C 308 1 C 308 2 C 407 32. rank() over()跳跃排序,有两个第二名时接下...

2019-07-28 11:04:35 802

原创 python计算节假日,工作日,周末 以及eval函数解析

1.日期-节假日-星期计算与节假日,以及工作日,周末属性相关的一些指标,代码如下import pandas as pdimport argparsefrom workalendar.asia import China # 节假日计算包def date_to_week(start_time, end_time): # 把时间列标准化时间格式 df = pd.DataFra...

2019-07-10 10:44:37 11180 1

转载 上海·GMIS 2019 全球数据智能峰会

早鸟票倒计时2天。2019GMIS归来,坐标上海。今年的GMIS以数据智能为主题,于7月19-20日举行。我们邀请到了吴恩达、杨强、李航、周涛等重磅嘉宾,设置主题演讲、AI画展、「AI00」数据智能榜单发布等环节,欢迎大家报名参加~https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=503281093&idx=1&s...

2019-07-03 10:19:00 553

原创 mac系统设置matplotlib 和 seaborn画图中文显示问题

苹果系统设置matplotlib 和 seaborn画图中文显示问题添加import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['Arial Unicode MS'] 即可

2019-06-10 10:18:42 1917 4

原创 张家界旅游攻略

( – 准备游玩 – )注意事项:A. 索道下站 -> 山顶 -> 乘穿山电梯 -> 天门洞 -> 乘免费车回索道站B. 索道站 -> 乘免费班车 -> 天门洞 -> 乘穿山电梯 ->山顶 ->坐索道 -> 索道下站5点30左右去索道下站(准备坐索道上山) 按A路线出发到索道下站需要做的事:1.取票 (网上预订)2.行李 ...

2019-06-09 17:03:29 1283

原创 pandas基础问题解决与整理

注意: pandas的merge和数据库中join原理类似 在数据是dataframe的时候,join底层调用的是merge, 故此,在这个工程中,把所有的join部分连接改为了concat

2018-09-11 10:46:29 231

原创 自动生成python环境所需包

列表内容自动生成requirements.txt文件安装pipreqs在工程目录下进入cmd,输入pipreqs . (记住.)不能掉哦,即可生成requirements.txt文件生成该文件后,如需换机器部署依赖环境,使用pip install -r requirements.txt即可获得全部依赖库...

2018-09-07 10:25:38 740

原创 原excel有合并单元格这种格式,openpyxl打开然后保存边框消失的问题

python3.5 openpyxl2.5可以用这个文件解决文件名为:fix_border.py,代码见下面的代码片在你写代码的那个文件里导入该文件 from fix_border import patch_worksheet 然后在load文件前加上patch_worksheet() 全部代码为 ws = opx.load_workbook(filename1) ...

2018-05-14 19:14:07 9194 4

原创 Dropout简介( 过拟合解决方案之一)

Dropout很形象的Dropout如图所示:  关于Dropout,文章中没有给出任何数学解释,Hintion的直观解释和理由如下: 1. 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。 2. 可以将dropout看

2017-11-06 10:12:18 921

原创 L1、L2正则化介绍

正则化(1) 正则化Regularization1) 正则化(Regularization)对参数w的影响 为了使LOSS’最小,w2部分要求w的值尽量平衡(why),和LOSS共同影响w变化。 正则化中将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小) 控制在两个不同的目标中的平衡关系。使得权重衰减!【说明】:LOSS’代表原始的代价函数,后面那一项就是L2正则化项,

2017-11-06 10:06:48 521

原创 关于调节学习率(learning rate)的几点建议

关于调节学习率的几点建议1.对于不同大小的数据集,调节不同的学习率根据我们选择的成本函数F(x)不同,问题会有区别。当平方误差和(Sum of Squared Errors)作为成本函数时, ∂F(ωj)∂ωj\frac{∂F(ω_j)} { ∂ω_j} 会随着训练集数据的增多变得越来越大,因此学习率需要被设定在相应更小的值上。 解决此类问题的一个方法是将学习率λ 乘上1/N,N是训练集中数据量。

2017-11-06 09:49:08 30919 2

原创 Lightgbm算法

Lightgbm算法一. 发展过程—-why LightgbmCART模型往往过于简单无法有效地进行预测,因此一个更加强力的模型叫做tree ensemble。1. AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样(类似于专家打分)。 AdaBoost两个问题: (1) 如何改变训练数据的权重或概率分布 提高前一轮被弱分类器错误分类的样本的权重,

2017-11-04 10:14:21 18951 4

原创 支持向量机

支持向量机支持向量:与分离超平面距离最近的样本点的实例svm优缺点优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数选择敏感,原始分类器不加修改仅适用于处理二分类问题 适合数据类型:数值型和标称型数据SMO算法的工作原理:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么久增大其中一个同时减小另一个。这里所谓的”合适”就是指两个alpha必须要符合一

2017-11-03 21:57:38 324

原创 k近邻算法(KNN)

k近邻算法KNN定义:给定新样本求其分类y,是从离x最近的k个点的类别中选取最多的分类(投票),定义为x的分类y 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适合数据范围:数值型和标称型通常k是个不大于20的整数,选择样本数据集中前k个最相似的数据 k值减小意味着整体模型变得复杂,容易发生过拟合代码伪码1 计算已知类别数据集中的点与当前点之间的距离 2按

2017-11-03 21:35:03 207

原创 逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)1 极大似然估计(maximum likelihood estimation)概念: 极大似然估计是一种概率论在统计学的应用,是参数评估的方法之一。假设 已知某个样本满足满足某种概率分布,但是其中具体的参数并不清楚,参数估计通过若干次试验,观察其结果,利用结果推出参数的最大概率值。极大似然估计就是建立在这样的思想上的:已知某个参...

2017-11-03 10:41:39 1141

原创 XGBoost 函数说明

XGBoost ParametersGeneral Parameters1 booster defaultgbtree2 silent default03 nthread default to maximum number of threads available if not set4 num_pbuffer set automatically by xgboost no need to

2017-11-03 10:14:14 1640

原创 Pycharm远程访问ssh,远程访问服务器(xshell访问服务器)

Pycharm远程访问ssh【1】 打开pycharm的File 找到 setting 点击进入 在搜索框中搜索 project 然后找到project interpreter 进入 如图: 【2】点开形如设置图样的图标,然后选中add remote 点击进入,如下图所示: 【3】进入如下界面:选择 SSH Credentials、然后在HOST处输入需要访问的服务器的ip地址,用户名和

2017-11-03 08:53:18 7886 3

原创 pycharm 远程调试

pycharm 远程调试[1] sudo su//进入根目录[2]pwd//看一下是否在根目录[3]docker ps //查看当前正在运行的docker, ps -a 所有的docker 无论是正在运行还是不在运行的//选择要启动的docker[4]docker start yu//启动名为yu的docker docker exec -it yu bash //进入名为yu的doc

2017-11-03 08:51:25 404

原创 安装ubuntu系统和Nvidia显卡驱动

【安装unbuntu16.04系统】 参考网址:http://wenku.baidu.com/link?url=cBpZc_AJ9ycwQeGnJrkwoy2TnrZmPqDyYP1sPFcoKGhqXHXFtbYBoGJy6bJ6_YKtaeJuCB52XnpBjG75y4ebdE2utgWUCt3zlODeZNHTQC_1.用老毛桃进入待装系统的电脑里面,将原来的分区删掉并【保存】!!!!然后

2017-11-03 08:44:27 1123

原创 凸函数

凸函数有一个很好的性质,即只要能证明我们求解的问题是凸函数,最终得到的解一定是全局最优解首先得注意一下: 中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在中国大陆某些的数学书中,比如说我上大学那会同济版的高等数学就是指凹函数。Concave Function指凸函数。 如在讲到函数凹凸性的时候,概念是这么给出的: 设f(x)在[a,b]上连续,在(

2017-10-30 14:49:20 21195 4

原创 SVD分解

研一的时候那会觉得svd分解,好像有点用不着,,到研三的时候才发现这玩意用处可大了,于是就总结一下,便于以后学习。如有不对的地方还望留言,请批评指正哦~ [toc]SVD分解应用领域优缺点公式推导实例分析总结

2017-10-29 10:20:05 510

sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

python sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

2018-03-09

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl,万能的http://www.lfd.uci.edu/~gohlke/pythonlibs/好像不能访问了,贼烦,所以共享一下资源

2018-03-09

最新最全2013信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

最新最全2013信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

2014信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

最新最全2005-2014信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

2005信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2005信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

网络安全技术试题

网络安全技术试题,史上最全,,花300元买来的试题,,提供给大家了

2017-11-04

网络信息安全试题

网络信息安全试题,带答案,,信息和知识面非常全,,

2017-11-04

武汉理工大学2010年研究生入学考试试题-软件工程

武汉理工大学2010年研究生入学考试试题---软件工程,走过路过不要错过

2017-11-04

武汉理工大学2006年研究生入学考试试题-软件工程

武汉理工大学2006年研究生入学考试试题-软件工程专业,不要错过哦

2017-11-04

武汉理工大学2002年研究生入学考试试题

武汉理工大学2002年研究生入学考试试题-数据结构

2017-11-04

on discriminative vs generative classifiers

从理论和实践区分判别模型和生成模型区分,andrew NG所写

2017-11-04

武汉理工大学计算机科学与技术学院考研资料

详细介绍武汉理工大学计算机类专业的考研各种题型,代码源码,机试题等

2017-11-03

java各种算法,类似于冒泡,汉诺塔,三阶幻方,判断回文

1. 平年,闰年,求今天是星期几 2. 九九乘法表梯形输出 3. 排序冒泡法 4. 求数组中最大的数和最小的数,并输出 5. 当前月的下一个月是上一月是 6. 三阶幻方 7. 判断回文 8. 判断两个字符串中相同位置上相等的字符 两个字符串中相同的字符,不重复 9. 判断数组是否相等 10. 求三角形的面积 11. Smith数 12. 数组左移右移 13. 验证哥德巴赫猜想 14. ABC--- 15. 1+[]+2+[]+3+[]+4+[]+5+[]+6+[]+7+[]+8+[]+9+[]=110 []用+ - 或者为空,如果为空,1空2 变为12 16. 信用卡号码满足,倒数第1、3、5……位的和加上倒数第2、4、6位数字乘以2(如果乘以2后变成两位数,则减9)的和。能被10整除。任意输入一个数字串,检验是不是满足条件。 17. 汉诺塔问题

2017-11-03

A Communication-Efficient Parallel Algorithm for Decision Tree

基于投票的数据并行则进一步优化数据并行中的通信代价,使通信代价变成常数级别。在数据量很大的时候,使用投票并行可以得到非常好的加速效果。更具体的内容可以看NIPS2016的文章[A Communication-Efficient Parallel Algorithm for Decision Tree]。

2017-11-03

lightgbm算法

具体讲解lightgbm算法,直方图加速,预排序思想,等等

2017-11-03

DoKuKIWI安装说明

DoKuKIWI windows 安装说明

2017-07-31

train-images-idx3-ubyte.gz

train-images-idx3-ubyte.gz

2017-05-31

lucene-core-2.4.1.jar je-analysis-1.5.3.jar

这是有关搜索的lucene包,找了好久没找到,觉得对大家应该有用吧~

2016-01-03

贝叶斯概率

这是我在积极总结的学习资料,希望对大家有帮助

2016-01-03

1 CSS基本语法

1 CSS基本语法大家可以学习,这对你们有帮助

2013-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除