- 博客(88)
- 资源 (23)
- 收藏
- 关注
原创 spark改写 心血管疾病预测
python版传送门:https://www.kesci.com/home/project/5da974e9c83fb400420f77d3package dataclear/** * @CreateUser: eshter * @CreateDate: 2019/10/23 * @UpdateUser: */import utils.session.IgnoreErrorAnd...
2019-12-05 14:13:56
934
3
原创 spark 改写 信用违约预测
信用违约预测传送门:https://www.kesci.com/home/project/5dadfeb675df5c002b20fa45package LittleTask/** * @CreateUser: eshter * @CreateDate: 2019/10/29 * @UpdateUser: */import org.apache.log4j.{Level, Lo...
2019-12-05 14:10:35
295
原创 spark 改写版 电信用户流失预测
参考链接:https://github.com/baopuzi/Telco_Customer_Churn/blob/master/tele_customer_churn_analysis.ipynb背景:https://zhuanlan.zhihu.com/p/68397317package bikedmtsparkjob.yufang.LittleTask/** * @CreateUs...
2019-12-05 14:08:37
561
3
原创 上海临港人工智能开发者大会(百度+英伟达+亚马逊的官方workshop和hackathon)
有大佬演讲及公开课,又有百度+英伟达+亚马逊的官方workshop和hackathon,在上海临港这样一个美丽而且安静的地方,对于开发者们的年底充电再合适不过了https://mp.weixin.qq.com/s/rM2jsAMi_zvjHw__u56YPA...
2019-11-27 15:55:38
300
原创 spark特征工程处理流程
一、特征工程查看数据的分布1df.describe().show()2df.summary().show() //这个显示比describe更全1 唯一值删除移除列特征中只有一个值的列 1 2`def UniqueValueRemove(df:DataFrame)={ 3 4 val df_ttmp=df.select(df.columns.map(c=>cou...
2019-11-08 11:25:28
440
原创 spark xgbboostClassifier参数设置
spark的XGBClassifier参数如下alpha -> 0.0 // learning ratemin_child_weight -> 1.0sample_type -> uniformbase_score -> 0.5colsample_bylevel -> 1.0grow_policy -> depthwiseskip_drop -&g...
2019-10-27 15:50:14
2513
1
原创 spark 行转列
StructType //注意这种方案解决的是形如下面myScore这样的扩展 /* root |-- age: long (nullable = true) |-- myScore: array (nullable = true) | |-- element: struct (containsNull = true)...
2019-10-27 15:37:49
519
原创 spark 填充缺失值系列
填充均值 //连续值填充均值 def ContinuousMissValueProcessingMean(df:DataFrame,douCols:Array[String]):DataFrame= { println("----连续值填充均值----开始-----") val meanDF = df.select((douCols)...
2019-10-27 15:35:15
2423
原创 spark gbdt 自定义阈值 取出模型概率,并转换label
在大家使用spark 的时候,会发现,ML库下的模型生成的概率是一个Vector,那么如何将这个Vector的概率为1的那一列取出呢?并且自定义阈值,按照这个阈值切分得到label的0,1类呢?这时候udf函数就派上了很好的用场,废话不多说,直接上代码取出Vector 的第n列,生成新的dataframe切分Vector得到每一列的值,形如调用下面的代码生成features,对feature...
2019-10-12 14:20:10
911
原创 spark调度的参数说明
一、spark 调度1 spark 参数说明参数名参数说明–mastermaster 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local–deploy-mode在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client–class应用程序的主类,仅针对 java 或 sc...
2019-10-12 14:07:57
329
1
原创 mac成功解决 AttributeError: module 'enum' has no attribute 'IntFlag'?
在mac中,当覆盖掉mac自带的python2.7后,在终端输入 python ,会出现AttributeError: module ‘enum’ has no attribute ‘IntFlag’?错误该问题解决如下:进入bash_profile vim ~/.bash_profile在该文件中找到pythonpath,把它删掉,即把图中标红处删掉然后在终端输入source ~...
2019-08-20 19:37:38
1403
原创 解决mac 安装lightgbm image not found问题
参考链接:https://blog.csdn.net/leowinbow/article/details/89020708
2019-08-20 19:26:33
1108
1
原创 世界人工智能大会期间,8.31下午(周六)世博中心红厅,给AI程序员们量身定制的超强阵容的AI开发者大会,贾扬清、Alex Smola、Julia语言作者等大牛进行分享
世界人工智能大会期间,8.31下午(周六)世博中心红厅,给AI程序员们量身定制的超强阵容的AI开发者大会,贾扬清、Alex Smola、Julia语言作者等大牛进行分享,欢迎点击链接报名。https://mp.weixin.qq.com/s/ilV-ICzcXYqM4FIdQBOzfg...
2019-08-20 14:43:21
270
原创 set与list--[交并差]
set的union,intersection,difference操作要比list的迭代要快。因此如果涉及到求list交集,并集或者差的问题可以转换为set来操作如:
2019-08-19 13:58:35
130
原创 pandas value_counts vs numpy in1d
df[‘report_month’].value_counts()np.in1d(normal_reports[‘report_month’],3).sum()
2019-08-19 13:54:12
175
原创 pandas实用trick
pandas实用trick1.向量操作有一组数据,需要实现如下功能:"Time"是日期-时分秒的格式,现在要求把"Time"拆为日期和时分秒两列,“day"和"hhmmss”。采用iloc,iterrows、itertuple、apply实现上述功能,并对其进行性能比较。 import pandas as pd column = ['Time', 'val1', 'val2', 'v...
2019-08-03 17:25:21
268
原创 pandas 正则化匹配 行转列
pandas 正则化匹配 行转列有如下一个题目:df=pd.DataFrame({‘id’:[{1,2,3,},{5,6,7},{9,10,11},[{12},{13},{15}]],‘value’:[1,2,3,4]})需实现如下功能:id value1 12 13 15 26 2…实现代码如下df['id']= df['id'].apply...
2019-08-02 13:50:58
1105
1
原创 新疆旅游攻略与建议
以下是7.14-7.23从上海到新疆旅行的行程【第一站】吐鲁番【出行方式】飞机(从黄花国际机场-吐鲁番机场)【住宿】-旅人青旅(老板是一个活泼开朗的云南妹子,特别热心介绍新疆的旅游景点,以及青旅附近的美食)-吐鲁番机场打的30元+即可抵达【景点游玩】1.火焰山-库木塔格沙漠2.吐鲁番博物馆 -干尸时间:一天火焰山中午和下午的颜色不一样,由于时间的关系,我们就远远的观望了一下火焰山,...
2019-07-28 11:23:49
641
原创 hsql rank排序&lag and lead
一、rank 排序1. row_number() over()在各个分组内从1开时排序也可不分组进行排序,给样本小到大无重复值进行排序A 101 1 A 102 2 A 103 3 A 104 4 A 105 5 B 209 1 C 308 1 C 308 2 C 407 32. rank() over()跳跃排序,有两个第二名时接下...
2019-07-28 11:04:35
802
原创 python计算节假日,工作日,周末 以及eval函数解析
1.日期-节假日-星期计算与节假日,以及工作日,周末属性相关的一些指标,代码如下import pandas as pdimport argparsefrom workalendar.asia import China # 节假日计算包def date_to_week(start_time, end_time): # 把时间列标准化时间格式 df = pd.DataFra...
2019-07-10 10:44:37
11180
1
转载 上海·GMIS 2019 全球数据智能峰会
早鸟票倒计时2天。2019GMIS归来,坐标上海。今年的GMIS以数据智能为主题,于7月19-20日举行。我们邀请到了吴恩达、杨强、李航、周涛等重磅嘉宾,设置主题演讲、AI画展、「AI00」数据智能榜单发布等环节,欢迎大家报名参加~https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=503281093&idx=1&s...
2019-07-03 10:19:00
553
原创 mac系统设置matplotlib 和 seaborn画图中文显示问题
苹果系统设置matplotlib 和 seaborn画图中文显示问题添加import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['Arial Unicode MS'] 即可
2019-06-10 10:18:42
1917
4
原创 张家界旅游攻略
( – 准备游玩 – )注意事项:A. 索道下站 -> 山顶 -> 乘穿山电梯 -> 天门洞 -> 乘免费车回索道站B. 索道站 -> 乘免费班车 -> 天门洞 -> 乘穿山电梯 ->山顶 ->坐索道 -> 索道下站5点30左右去索道下站(准备坐索道上山) 按A路线出发到索道下站需要做的事:1.取票 (网上预订)2.行李 ...
2019-06-09 17:03:29
1283
原创 pandas基础问题解决与整理
注意: pandas的merge和数据库中join原理类似 在数据是dataframe的时候,join底层调用的是merge, 故此,在这个工程中,把所有的join部分连接改为了concat
2018-09-11 10:46:29
231
原创 自动生成python环境所需包
列表内容自动生成requirements.txt文件安装pipreqs在工程目录下进入cmd,输入pipreqs . (记住.)不能掉哦,即可生成requirements.txt文件生成该文件后,如需换机器部署依赖环境,使用pip install -r requirements.txt即可获得全部依赖库...
2018-09-07 10:25:38
740
原创 原excel有合并单元格这种格式,openpyxl打开然后保存边框消失的问题
python3.5 openpyxl2.5可以用这个文件解决文件名为:fix_border.py,代码见下面的代码片在你写代码的那个文件里导入该文件 from fix_border import patch_worksheet 然后在load文件前加上patch_worksheet() 全部代码为 ws = opx.load_workbook(filename1) ...
2018-05-14 19:14:07
9194
4
原创 Dropout简介( 过拟合解决方案之一)
Dropout很形象的Dropout如图所示: 关于Dropout,文章中没有给出任何数学解释,Hintion的直观解释和理由如下: 1. 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。 2. 可以将dropout看
2017-11-06 10:12:18
921
原创 L1、L2正则化介绍
正则化(1) 正则化Regularization1) 正则化(Regularization)对参数w的影响 为了使LOSS’最小,w2部分要求w的值尽量平衡(why),和LOSS共同影响w变化。 正则化中将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小) 控制在两个不同的目标中的平衡关系。使得权重衰减!【说明】:LOSS’代表原始的代价函数,后面那一项就是L2正则化项,
2017-11-06 10:06:48
521
原创 关于调节学习率(learning rate)的几点建议
关于调节学习率的几点建议1.对于不同大小的数据集,调节不同的学习率根据我们选择的成本函数F(x)不同,问题会有区别。当平方误差和(Sum of Squared Errors)作为成本函数时, ∂F(ωj)∂ωj\frac{∂F(ω_j)} { ∂ω_j} 会随着训练集数据的增多变得越来越大,因此学习率需要被设定在相应更小的值上。 解决此类问题的一个方法是将学习率λ 乘上1/N,N是训练集中数据量。
2017-11-06 09:49:08
30919
2
原创 Lightgbm算法
Lightgbm算法一. 发展过程—-why LightgbmCART模型往往过于简单无法有效地进行预测,因此一个更加强力的模型叫做tree ensemble。1. AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样(类似于专家打分)。 AdaBoost两个问题: (1) 如何改变训练数据的权重或概率分布 提高前一轮被弱分类器错误分类的样本的权重,
2017-11-04 10:14:21
18951
4
原创 支持向量机
支持向量机支持向量:与分离超平面距离最近的样本点的实例svm优缺点优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数选择敏感,原始分类器不加修改仅适用于处理二分类问题 适合数据类型:数值型和标称型数据SMO算法的工作原理:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么久增大其中一个同时减小另一个。这里所谓的”合适”就是指两个alpha必须要符合一
2017-11-03 21:57:38
324
原创 k近邻算法(KNN)
k近邻算法KNN定义:给定新样本求其分类y,是从离x最近的k个点的类别中选取最多的分类(投票),定义为x的分类y 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适合数据范围:数值型和标称型通常k是个不大于20的整数,选择样本数据集中前k个最相似的数据 k值减小意味着整体模型变得复杂,容易发生过拟合代码伪码1 计算已知类别数据集中的点与当前点之间的距离 2按
2017-11-03 21:35:03
207
原创 逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)1 极大似然估计(maximum likelihood estimation)概念: 极大似然估计是一种概率论在统计学的应用,是参数评估的方法之一。假设 已知某个样本满足满足某种概率分布,但是其中具体的参数并不清楚,参数估计通过若干次试验,观察其结果,利用结果推出参数的最大概率值。极大似然估计就是建立在这样的思想上的:已知某个参...
2017-11-03 10:41:39
1141
原创 XGBoost 函数说明
XGBoost ParametersGeneral Parameters1 booster defaultgbtree2 silent default03 nthread default to maximum number of threads available if not set4 num_pbuffer set automatically by xgboost no need to
2017-11-03 10:14:14
1640
原创 Pycharm远程访问ssh,远程访问服务器(xshell访问服务器)
Pycharm远程访问ssh【1】 打开pycharm的File 找到 setting 点击进入 在搜索框中搜索 project 然后找到project interpreter 进入 如图: 【2】点开形如设置图样的图标,然后选中add remote 点击进入,如下图所示: 【3】进入如下界面:选择 SSH Credentials、然后在HOST处输入需要访问的服务器的ip地址,用户名和
2017-11-03 08:53:18
7886
3
原创 pycharm 远程调试
pycharm 远程调试[1] sudo su//进入根目录[2]pwd//看一下是否在根目录[3]docker ps //查看当前正在运行的docker, ps -a 所有的docker 无论是正在运行还是不在运行的//选择要启动的docker[4]docker start yu//启动名为yu的docker docker exec -it yu bash //进入名为yu的doc
2017-11-03 08:51:25
404
原创 安装ubuntu系统和Nvidia显卡驱动
【安装unbuntu16.04系统】 参考网址:http://wenku.baidu.com/link?url=cBpZc_AJ9ycwQeGnJrkwoy2TnrZmPqDyYP1sPFcoKGhqXHXFtbYBoGJy6bJ6_YKtaeJuCB52XnpBjG75y4ebdE2utgWUCt3zlODeZNHTQC_1.用老毛桃进入待装系统的电脑里面,将原来的分区删掉并【保存】!!!!然后
2017-11-03 08:44:27
1123
原创 凸函数
凸函数有一个很好的性质,即只要能证明我们求解的问题是凸函数,最终得到的解一定是全局最优解首先得注意一下: 中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在中国大陆某些的数学书中,比如说我上大学那会同济版的高等数学就是指凹函数。Concave Function指凸函数。 如在讲到函数凹凸性的时候,概念是这么给出的: 设f(x)在[a,b]上连续,在(
2017-10-30 14:49:20
21195
4
原创 SVD分解
研一的时候那会觉得svd分解,好像有点用不着,,到研三的时候才发现这玩意用处可大了,于是就总结一下,便于以后学习。如有不对的地方还望留言,请批评指正哦~ [toc]SVD分解应用领域优缺点公式推导实例分析总结
2017-10-29 10:20:05
510
sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl
2018-03-09
PyQt4-4.11.4-cp35-cp35m-win_amd64.whl
2018-03-09
java各种算法,类似于冒泡,汉诺塔,三阶幻方,判断回文
2017-11-03
A Communication-Efficient Parallel Algorithm for Decision Tree
2017-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅