自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (4)
  • 收藏
  • 关注

原创 jieba分词+wordcloud——《斗破苍穹》词云

效果图:环境:python、jieba、wordcloud。材料:《斗破苍穹》、背景图(背景图需要保证除了图案之外,其他地方是‘空白’,友情提示:空白是空白,不是看起来白,要保证像素值为0)jieba和wordcloud都可以通过pip install 来安装,很省事。结巴分词千言万语抵不过官方一句:https://github.com/fxsjy/jie...

2019-02-28 15:34:10 1380

原创 机器学习笔记之二十一——基于统计的中文分词方法

中文NLP最基础的问题应该就是分词了,毕竟中文不像英文一样单词与单词之间都有空格存在,所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。 分词的方法许多,比如基于字典的暴力分词,基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法,所以,我先看它。基于统计的中文分词方法 这里介绍的是利用有向无环图DAG求最大概率路...

2019-02-28 15:16:26 6050 2

原创 机器学习笔记之二十——Factorization Machines(FM)

  Factorization Machines,为什么会出现这个东西?      (1)、在推荐系统中,数据矩阵往往是十分稀疏的,而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感,无法找到一个好的分割超平面。      (2)、推荐系统中有诸多基于内容的推荐算法、协同过滤等算法框架,但是一般某个业务的模型不具备一般化能力,不能拿到别的业务中使用。       基于...

2019-02-26 21:42:03 2986 2

原创 tensorflow高阶API——Estimator

   tensorflow在DL社区火热,无论写个什么算法都要搞在tensorflow上面。我喜欢tensorflow的两个地方,一是分布式方便,二是跑GPU方便,然而tensorflow终究是个科学计算库,要在上面进行算法的研发和工程化,还是有点儿裸奔的感觉。  所以,我选择Estimator。  这是某tensorflow内部大佬公开演讲时拿出来的一个架构图,最底层一个分布式ten...

2019-02-25 14:31:58 948

原创 启发式算法之蚁群算法、模拟退火算法

  什么是启发式算法?   启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。                                 ...

2019-02-21 14:45:33 2441

原创 机器学习笔记之十九——决策树的损失函数(补充)

  决策树生长的核心在于如何选择最优特征作为当前结点分割的特征。  当决策树如此生长完成后,对训练集程度会很好,但是对测试集一般都会出现高方差、过拟合的现象,如何预防这种现象,就是之前提到的预剪枝、后剪枝方法。  而剪枝过程换个方法来讲,其实就是在优化降低Loss function的的过程。  Loss function    设决策树T的叶节点个数为, 是树的叶节点,该叶节点有个...

2019-02-10 22:15:17 4105

原创 机器学习笔记之十八——分别从象限和泰勒理解牛顿法

  牛顿法与梯度下降法作用相同,都是求解函数用的,在机器学习问题中,就是求解损失函数,寻找最优参数。    1、从几何图像来看牛顿法    有一个待解函数 ,我们要求它的0点解x*,用牛顿法。   假设有一个点x0十分接近x*,在这个点对函数曲线做切线。如果x0点之下的曲线斜率保持不变,那么这条切线与的0点解(即切线与x轴的交点)就是曲线的零点解。实际上,斜率在变,这时我们又发现,...

2019-02-10 00:04:12 298

原创 算法题之二——内旋打印矩阵

题目来源牛客网:https://www.nowcoder.com/practice/9b4c81a02cd34f76be2659fa0d54342a?tpId=13&tqId=11172&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking输入一个矩阵,按照从外向里以顺时...

2019-02-06 22:56:38 260

原创 算法题之一——求镜像二叉树

题目来自牛客网:https://www.nowcoder.com/practice/564f4c26aa584921bc75623e48ca3011?tpId=13&tqId=11171&tPage=1&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking  ...

2019-02-06 22:51:42 245

原创 机器学习笔记之十七——VC dimension

定义  VC维(外文名Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它...

2019-02-06 22:44:23 632

原创 机器学习笔记之十六——模型融合Blending

  Blending方法是区别于bagging和boosting的另一种集成模型的方法。  在已经得到多个弱学习器的状况下,如何将这些弱学习器的预测值联合起来,得到更好的预测值,就是Blending做的事情。  1、Uniform Blending    uniform Blending(平均Blending)是最简单的一种Blending方法。   定义:已知多个弱学习器,每...

2019-02-03 22:11:58 3193

原创 机器学习笔记之十五——lightgbm之直方图算法

  lightgbm使用时有一个参数“max_bin”一直在用,但是一直比较模糊,于是想搞它一搞。  max_bin官方文档的解释:max number of bins that feature values will be bucketed insmall number of bins may reduce training accuracy but may increase gen...

2019-02-02 17:57:45 1662

xiaoshuo_03_6-6.zip

爬虫框架scrapy实际案例——爬取QQ阅读数据,详情请见:https://blog.csdn.net/qq_35946969/article/details/91446192

2019-06-11

吴恩达深度学习作业-第二课第一周

吴恩达深度学习作业。

2018-10-09

sparkstreaming2.3_kafka0.8_jar包集合

资源不能免费。。。。。。。。。。。。。。。。。。。。。。 sparkstreaming集成kafka总结请看https://blog.csdn.net/qq_35946969/article/details/79995514

2018-04-26

java调用kettle的依赖包

调试代码的过程中一个个找出来的,分享给大家

2017-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除