2019年02月_JAVA技术分享官-乐乐

09月 07月 06月 05月 04月 03月 02月 01月

原创 jieba分词+wordcloud——《斗破苍穹》词云

效果图：环境：python、jieba、wordcloud。材料：《斗破苍穹》、背景图（背景图需要保证除了图案之外，其他地方是‘空白’，友情提示：空白是空白，不是看起来白，要保证像素值为0）jieba和wordcloud都可以通过pip install 来安装，很省事。结巴分词千言万语抵不过官方一句：https://github.com/fxsjy/jie...

2019-02-28 15:34:10 1421

原创机器学习笔记之二十一——基于统计的中文分词方法

中文NLP最基础的问题应该就是分词了，毕竟中文不像英文一样单词与单词之间都有空格存在，所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。分词的方法许多，比如基于字典的暴力分词，基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法，所以，我先看它。基于统计的中文分词方法这里介绍的是利用有向无环图DAG求最大概率路...

2019-02-28 15:16:26 6153 2

原创机器学习笔记之二十——Factorization Machines(FM)

Factorization Machines，为什么会出现这个东西？（1）、在推荐系统中，数据矩阵往往是十分稀疏的，而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感，无法找到一个好的分割超平面。（2）、推荐系统中有诸多基于内容的推荐算法、协同过滤等算法框架，但是一般某个业务的模型不具备一般化能力，不能拿到别的业务中使用。基于...

2019-02-26 21:42:03 3016 2

原创 tensorflow高阶API——Estimator

tensorflow在DL社区火热，无论写个什么算法都要搞在tensorflow上面。我喜欢tensorflow的两个地方，一是分布式方便，二是跑GPU方便，然而tensorflow终究是个科学计算库，要在上面进行算法的研发和工程化，还是有点儿裸奔的感觉。所以，我选择Estimator。这是某tensorflow内部大佬公开演讲时拿出来的一个架构图，最底层一个分布式ten...

2019-02-25 14:31:58 978

原创启发式算法之蚁群算法、模拟退火算法

什么是启发式算法？启发式算法（heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义：一个基于直观或经验构造的算法，在可接受的花费（指计算时间和空间）下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计。 ...

2019-02-21 14:45:33 2477

原创机器学习笔记之十九——决策树的损失函数（补充）

决策树生长的核心在于如何选择最优特征作为当前结点分割的特征。当决策树如此生长完成后，对训练集程度会很好，但是对测试集一般都会出现高方差、过拟合的现象，如何预防这种现象，就是之前提到的预剪枝、后剪枝方法。而剪枝过程换个方法来讲，其实就是在优化降低Loss function的的过程。 Loss function 设决策树T的叶节点个数为, 是树的叶节点，该叶节点有个...

2019-02-10 22:15:17 4216

原创机器学习笔记之十八——分别从象限和泰勒理解牛顿法

牛顿法与梯度下降法作用相同，都是求解函数用的，在机器学习问题中，就是求解损失函数，寻找最优参数。 1、从几何图像来看牛顿法有一个待解函数，我们要求它的0点解x*，用牛顿法。假设有一个点x0十分接近x*，在这个点对函数曲线做切线。如果x0点之下的曲线斜率保持不变，那么这条切线与的0点解（即切线与x轴的交点）就是曲线的零点解。实际上，斜率在变，这时我们又发现，...

2019-02-10 00:04:12 336

原创算法题之二——内旋打印矩阵

题目来源牛客网：https://www.nowcoder.com/practice/9b4c81a02cd34f76be2659fa0d54342a?tpId=13&tqId=11172&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking输入一个矩阵，按照从外向里以顺时...

2019-02-06 22:56:38 276

原创算法题之一——求镜像二叉树

题目来自牛客网：https://www.nowcoder.com/practice/564f4c26aa584921bc75623e48ca3011?tpId=13&tqId=11171&tPage=1&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking ...

2019-02-06 22:51:42 257

原创机器学习笔记之十七——VC dimension

定义 VC维（外文名Vapnik-Chervonenkis Dimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学理论定义的有关函数集学习性能的一个重要指标。传统的定义是：对一个指示函数集，如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开，则称函数集能够把H个样本打散；函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它...

2019-02-06 22:44:23 684

原创机器学习笔记之十六——模型融合Blending

Blending方法是区别于bagging和boosting的另一种集成模型的方法。在已经得到多个弱学习器的状况下，如何将这些弱学习器的预测值联合起来，得到更好的预测值，就是Blending做的事情。 1、Uniform Blending uniform Blending（平均Blending）是最简单的一种Blending方法。定义：已知多个弱学习器，每...

2019-02-03 22:11:58 3282

原创机器学习笔记之十五——lightgbm之直方图算法

lightgbm使用时有一个参数“max_bin”一直在用，但是一直比较模糊，于是想搞它一搞。 max_bin官方文档的解释：max number of bins that feature values will be bucketed insmall number of bins may reduce training accuracy but may increase gen...

2019-02-02 17:57:45 1686

xiaoshuo_03_6-6.zip

爬虫框架scrapy实际案例——爬取QQ阅读数据，详情请见：https://blog.csdn.net/qq_35946969/article/details/91446192

2019-06-11

吴恩达深度学习作业-第二课第一周

吴恩达深度学习作业。

2018-10-09

sparkstreaming2.3_kafka0.8_jar包集合

资源不能免费。。。。。。。。。。。。。。。。。。。。。。 sparkstreaming集成kafka总结请看https://blog.csdn.net/qq_35946969/article/details/79995514

2018-04-26

java调用kettle的依赖包

调试代码的过程中一个个找出来的，分享给大家

2017-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人