自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

转载 (转)softmax求导写的最清晰最清楚的版本

https://www.jianshu.com/p/6e405cecd609

2019-03-22 19:40:26 576

原创 一种经典的自然语言处理数据预处理方式

import sysimport osimport jsonimport reimport numpy as npdef PraseRawdata(author = None,constrain = None,src='./chinese-poetry/json/simplified', category="poet.tang"): def sentenceParse(para...

2019-03-20 21:57:01 1953

原创 设计模式学习笔记(一)

策略者模式和观察者模式初探在平时学习中,我们总是面向实现编程,每一个特定的问题,就专门写一个代码。其实这样实现起来特别特别累,特别是当我在写一些大同小异的代码的时候,一不留神就改错了。所以第一次接触设计模式的时候,大概是在学习流畅的Python的时候,事实上设计模式和数据结构与算法一样,当你写程序写多了,自然想要预先设计自己代码的模式,使自己的编程更加有效率。所以我们要牢记几个设计原则:1....

2019-02-23 11:18:44 278

原创 tensorflow-gpu ImportError: DLL load failed: 找不到指定的模块。解决办法

最近好不容易弄了块1070的显卡,准备大展身手,做gpu训练。调用之后会发现出现imprortError ImportError: DLL load failed: 找不到指定的模块。具体错误是Traceback (most recent call last):  File "C:\Users\Administrator\AppData\Local\Programs\Python\Pyt...

2019-02-22 17:00:38 14705 17

原创 街拍爬虫

最近要好好学习爬虫了,于是先找了个图片爬虫练练手,本篇文章参考资料为崔庆才 的python3 网络爬虫实战,但是今日头条最近把imagelist改了,所以废了一段功夫。发现头条的人把高清图片都藏在一个小角落里,我们要善用crif+f 来找到图片地址。方法都是大同小异。只不过发现json 比我们之前用的html方式提取信息要方便多了。最后提醒善用正则表达式呀!废话不多直接上代码。i...

2019-02-14 21:19:44 514

原创 关于大数据精准营销中搜狗用户画像挖掘比赛的一些感悟(看第一名代码有感)

1.用NLTK、jieba等对query做一些分词,词形还原,再用doc2vec 得到dbow ,dm的一些特征2.用tf_idf NB LR NN 等一些方法 再结合stack 融合得到一些新的特征3. 最后用xgboost 或者LGB 做一些分类。以上大概可以得到一个baseline,具体怎么做特征工程 怎么调参 还是一个技术活  ...

2018-11-17 19:00:31 885

原创 SVM 的俩种视角

 本篇博文参考来自李航统计学习方法,周志华机器学习,李宏毅机器学习课程,还有sklearn的官方文档http://sklearn.apachecn.org/cn/0.19.0/modules/svm.html支持向量机的优缺点优点:即使在数据维度比样本数量大的情况下仍然有效. 在决策函数(称为支持向量)中使用训练集的子集,因此它也是高效利用内存的. 高效性:可以通过核函数来处理...

2018-10-27 14:14:25 329

原创 用sklearn做一个完整的机器学习工程——以波士顿房价预测为例(三、调参,找最优参数)

前言本来是打算介绍一下:GBDT、XGboost的原理的,看着看着发现网络上的博客资料都不是很全,讲的云里雾里。建议直接阅读一下Friedman的论文和陈天奇的论文,链接: https://pan.baidu.com/s/14TmsZTorZmOAHEwZU5fiNA 密码: g2g1下面我要开始介绍sklearn中的调参步骤啦如果你现在有了一个列表,列表里有几个有希望的模型。你现...

2018-10-27 00:15:49 2798

原创 损失函数的研究,二元分类和多分类(LR 和softmax)

简介在做GBDT的时候遇到的一个坑现在把它填上。二元分类和多分类的问题形式上看去简单,但是当我们仔细思考的时候还是有很多坑的。我再也不敢说自己精通Logistic模型了,本来以为都掌握了原理,其实并不然。损失函数一般分为四种,平方损失函数、对数损失函数、softmax损失函数、hingeloss损失函数。平方损失函数很容易理解,一般用于回归问题。这里就不做讲解了。逻辑回归与对数损失...

2018-10-15 01:23:53 6521 1

原创 关于集成学习的总结(二) Bagging思想

Bagging 方法本篇博客的关于随机森林的优缺点参考了https://blog.csdn.net/zhongjunlang/article/details/79488955来自上篇投票法的启示,我们想要得到泛化性较强的集成,集成中的分类器应尽可能的相互独立。这个独立可能显示任务中很难做到,于是人们设法给基学习器较大的差异,那么怎么做呢?一种可能的方法就是对基分类器进行采样,让他产生不同的...

2018-10-13 18:53:35 3592

原创 关于集成学习的总结(一) 投票法

最近在写那个完整的机器学习项目博客时候,我本来打算用一篇博客来写的。结果发现要写的越来越多。而且最关键的是,以前以为有些地方理解了,其实并没有理解。大概这就是写博客记笔记的好处吧。。。可惜我上高中初中那会,从来都没记过233333 这篇集成学习的总结呢,将结合sklearn 的运用说一说有关集成学习的一些东西,包括bagging、boosting、stacking和其他一些算法,我们会重点...

2018-10-13 16:55:51 13092 5

原创 用sklearn做一个完整的机器学习工程——以波士顿房价预测为例(二、select a model and train it)

终于到了这一步了!你在前面限定了问题、获得了数据、探索了数据、采样了一个测试集、写了自动化的转换流水线来清理和为算法准备数据。现在,早就已经准备好选择并训练一个机器学习模型了。那我们就从线性模型开始讲起吧!普通的广义线性模型,都是拟合一个带有系数  的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:,当然如果是做分类的话,请参照李航的logis...

2018-10-11 10:32:53 3244

原创 线性回归的小trick

线性回归感觉线性回归当中讲的东西不太多,前提是不涉及贝叶斯的情况,关于贝叶斯相关的回归,可以学习一下bishop的PRML(模式识别与机器学习),之前我在学习统计相关的课程的时候也接触过一点。。。记得lasso、岭回归什么的都是贝叶斯线性回归的退化情况。普通的广义线性模型,都是拟合一个带有系数  的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:...

2018-10-10 13:48:15 598

原创 用sklearn做一个完整的机器学习工程——以波士顿房价预测为例。(一、用自定义转换器、Pipeline Feature_Union做特征工程)

想要一直做一个完整的机器学习工程已经好久了,这篇博客呢,我会用到决策树,随机森林,svm,xgboost,投票法等方法。对波士顿的房价进行预测。本篇博客不会对相关原理进行解释,如果想要了解各个算法的原理,请阅读李航的统计机器学习,周志华的机器学习,以及陈天奇的XGBoost: A Scalable Tree Boosting System 和相关博客部分代码参考利用python进行数据分析...

2018-10-09 22:33:47 4463

原创 Tensorflow 学习(一) DNN的前世今生(一)加源代码展示

这篇博客呢,主要记录的是自己对DNN的理解,然后呢,还记录了一下比较前沿的DNN的理论 ELU,Dropout,动量法,RMSProp。反向传播算法呢,由于CSDN上面街上的已经很多了,不在这篇的讨论范围之类,这篇博客主要参考的台大李宏毅的机器学习、以及DeepLearning 这本书吧。我只是知识的搬运工 JXinyee,嘿嘿在此附上李宏毅老师的个人主页,讲的非常非常好http://sp...

2018-10-05 00:15:25 1867

原创 python 装饰器的运用 在剑指offer中的运用

说实在的,我一直担心有人问,你会python不?我会!那你给我讲讲装饰器的用法吧?啊??我从来没用过装饰器啊这样面试就尴尬了。。。。。python的装饰器呢,就是一种对原先的函数或类进行修饰的函数,一定要注意,他的返回值是是一个参数,在返回时它会发生调用,往往传入的参数也是一个函数(不一定)。装饰器的好处就是在不用更改原函数的代码前提下给函数增加新的功能,如果一段代码很重要,老...

2018-10-01 21:02:51 214

原创 基于adaboost的svm实现

为了以后找到好工作,好实习。我决定自己也写一写博客,记录自身的新的体会,也为每周一次的讨论班打下基础。其实基于机器学习的话,现在我觉得数据挖掘最有效的方法就是集成了,有bagging和boosting俩种思想。普通的单一用一个svm,或者决策树什么的已经几乎被淘汰了。最新的武器就只有GBDT、Adaboost、LightGbm,Xgboost,随机森林这些思想。adaboost其实在做人脸...

2018-09-27 12:17:19 12042 11

所罗门数据集

用来测试TSP 以及VRP问题的标准数据集 分成 CUST NO. XCOORD. YCOORD. DEMAND READY TIME DUE DATE SERVICE TIME六个维度

2018-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除