算法 代码拷来终觉浅,绝知此事要躬行

-3、GoogLeNet Inception_v1:大约只有500万参数,只相当于Alexnet的1/12(GoogLeNet的caffemodel大约50M,VGGNet的caffemodel则要超过600M

Inception_v2:大卷积核换成小卷积核     5x5卷积核参数是3x3卷积核的25/9=2.78倍。为此,作者提出可以用2个连续的3x3卷积层(stride=1)组成的小网络来代替单个的5x5卷积层,(保持感受野范围的同时又减少了参数量,减少计算量)       大量实验可以表明不会造成表达缺失

     任意nxn的卷积都可以通过1xn卷积后接nx1卷积来替代。 中度大小的feature map上使用效果才会更好

-2、利用图像指纹检测高相似度的图像:图像哈希法  difference hash  dHash着力探究相邻像素之间的区别

-1、用什么算法 看应用场景、看数据量。

0、线性模型:Glmnet>LASSO(L1)>Ridge(L2)>LR/Logistic。   L1得到的系数0多,L2得到的系数只是接近0的多。

     复杂模型:XGBoost>=GBDT>=RF  RF在Kaggle中很少见。    Xgboost比GBDT的优点:基分类器可以选择线性分类器;优化求解时,用一阶导数的同时,还利用了二阶导数信息;代价函数中加入了正则项,控制模型的复杂度;

GBDT(GBDT的每棵树是按照顺序生成的(这个和RF完全不一样,RF并行生成就Ok),每棵树的生成都利用上之前生成的数留下的信息)和random forest(一个bagged tree充分利用近1/3-2/3的样本集)等集成学习方法并不比SVM、LogiticRegression更容易过拟合。

森林的缺点:缺点在于其随机性,同一个数据集,运行两次,得到两个不同的结果,导致不能知道结果是因为选择更好的特征导致的还是由于选择样本时的随机性导致的。

树:分裂时,找到使不纯度下降最快的分裂变量和分裂点。通过变量选择迭代地建立一棵分类树,使得每次分类平面能最好地将剩余数据分为两类。

       优点:可以进行变量选择,可以克服缺失值;缺点:不稳定。

逻辑回归过拟合的话,可以??????减小??????LinearSVC中的C参数

100个以上变量,以下两个模型出现了过拟合(测试集、训练集效果相差较大):增加样本、减少维度(降低模型的复杂度,而更不容易刻画到噪声数据的分布。

      RF:在N个样本中用Booststrap采样选出n个样本,建立CART;在树的每个节点上,从属性中随机选择K个属性subspace,选择出最佳分割属性作为节点。

      GBDT:Gradient Boosting Decision Tree,boosting的一种。每次建立一个弱的模型,都是在之前模型的损失函数的梯度方向(bossting:更在意之前错分的点),使损失函数不断下降。

1、PageRank网页排名:用来计算网页的重要性。网页之间的链接关系用图表示。网页A的重要性为:链接至A的网页的重要性的加权和

2、迁移学习:源训练好的模型 迁移应用到 目标待求解问题。适用于目标问题的y不易得到,而源模型好得到的情况

3、SVM

4、蒙特卡罗采样算法

5、缺失值填充:略过,填中位数、均值,回归插补

6、LDA主题模型

jieba中文自然语言处理:分词、调整词典、提取关键词、词性标注、返回词语在原文的起止位置 

        import jieba

seg_list = jieba.cut("您好!请转告任辉:我们是银行委托代理人,关于任辉的欠款数额较大,拖欠时间较久,且任辉拒不接听电话,有恶意逃避嫌疑,因案情紧急特通知您转告务请配合我方调查,签收法律文书,二日内还清欠款。如在限定时间内仍不清还欠款,我方将全面启动法律程序,将向任辉老家派出所、政府、村委(或居委)等有关部门发送协助函要求协助调查,并将电话联系村干部(居委干部)、派出所了解情况,调查组将立即出发到任辉单位及老家展开调查,根据调查结果涉嫌犯罪的,将向公安机关报案。黄勇先生/小姐:我们是银行代理人,您拒不接听电话有逃避嫌疑,因案情紧急特通知您,务请配合我方调查,签收法律文书,二日内还清欠款。如在限定时间内仍不清还欠款,我们将全面启动法律程序,包括但不限于催告函(律师函),向您老家派出所、政府、村委(或居委)等有关部门发送协助函要求协助调查,并将电话联系村干部(或居委干部)、派出所了解情况,调查组将立即出发到单位及老家展开调查,根据调查结果,将立即向人民法院起诉,查封财产。如涉嫌诈骗犯罪的,将向公安机关报案。",cut_all=False,HMM=True)
print "新词识别:", "/ ".join(seg_list)     #分词

for co in sample['sample_content']:
    big_string+=co
seg_list = jieba.cut(big_string,cut_all=False,HMM=True)
a=", ".join(seg_list)
b=a.split(',')
c=pd.DataFrame(b)
d=c[0].value_counts()                       #对sample_content列进行分词,看词语的出现频次

import jieba.analyse

jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')

jieba.analyse.extract_tags('【臻信事务所】姓名:苏城关于你办理消费分期逾期一案。已多次通知公示并发函至户籍地:云南省大理白族自治州漾濞彝族自治县苍山西镇

苍山中路5号村[居]委、派出所上门调查完毕。如你继续拖欠,将拟向深圳市福田区人民法院立案庭进行排期审理,当事人如收到法院传票应于2016年12月26日15点前持应诉

通知书及申请合同资料、个人证件、答辩状处理。若当事人无正当理由拒不到庭,法院将有权当庭做被告缺席审理,判决被告方败诉并承担所有费用。案件负责人:余助理电

话:0755-25199252手机:18938079992(若非本人敬请转达)',withWeight=True)

print pd.DataFrame(tags)                  #TF-IDF权重最大 提取关键词

a=jieba.analyse.textrank('【臻信事务所】姓名:苏城关于你办理消费分期逾期一案。已多次通知公示并发函至户籍地:云南省大理白族自治州漾濞彝族自治县苍山西镇苍山中路5号村[居]委、派出所上门调查完毕。如你继续拖欠,将拟向深圳市福田区人民法院立案庭进行排期审理,当事人如收到法院传票应于2016年12月26日15点前持应诉通知书及申请合同资料、个人证件、答辩状处理。若当事人无正当理由拒不到庭,法院将有权当庭做被告缺席审理,判决被告方败诉并承担所有费用。案件负责人:余助理电话:0755-25199252手机:18938079992(若非本人敬请转达)',withWeight =True)

c=pd.DataFrame(a)  #TextRank提取关键词

7、寻找文本中的关键词TextRank:倾向于将频繁词作为关键词

  词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。

8、文本的情感分析:微博和商品评论本身就一定存在强烈的情感色彩。

8.1基于词典的情感分析步骤:

分解句子中的词汇;搜索情感词并标注和计数;搜索情感词前的程度词,根据程度大小,赋予不同权值;搜索情感词前的否定词,赋予反转权值(-1);计算句子的情感得分

8.2基于机器学习的情感分析

文本向量化后,训练模型后用于预测。

8.3判断是不是催收短信:收集词库(催收场景的词语、委外催收的词语、非催收场景的词语),分解短信;各种词语标记、计数;

9、长短期记忆网络LSTM

10、

A卡(Application score card)申请评分卡

B卡(Behavior score card)行为评分卡

C卡(Collection score card)催收评分卡

11、为什么要迁移学习:数据量不一定都大;提高模型的adaptive能力。

学生学会了一道题,要迁移到新的题目的求解上面。知识(模型、参数)的流转。

本质:找出问题的不变量。

实例:用银行小额贷款用户的模型 迁移到 银行大额贷款营销模型,  使得响应率提高了1倍。

12、图模型(关系) 结合 深度学习 风险预测及监控       深度学习需要大样本,训练集、测试机要比较一致,无可解释性

13、蚂蚁金服:模型服务平台    车辆定损宝:判断车辆维修价格

14、基于哈希的海量特征提取

15、深度强化学习:时序决策——营销与推荐

16、增强学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值