- 博客(12)
- 资源 (4)
- 收藏
- 关注
原创 jieba分词+wordcloud——《斗破苍穹》词云
效果图:环境:python、jieba、wordcloud。材料:《斗破苍穹》、背景图(背景图需要保证除了图案之外,其他地方是‘空白’,友情提示:空白是空白,不是看起来白,要保证像素值为0)jieba和wordcloud都可以通过pip install 来安装,很省事。结巴分词千言万语抵不过官方一句:https://github.com/fxsjy/jie...
2019-02-28 15:34:10 1421
原创 机器学习笔记之二十一——基于统计的中文分词方法
中文NLP最基础的问题应该就是分词了,毕竟中文不像英文一样单词与单词之间都有空格存在,所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。 分词的方法许多,比如基于字典的暴力分词,基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法,所以,我先看它。基于统计的中文分词方法 这里介绍的是利用有向无环图DAG求最大概率路...
2019-02-28 15:16:26 6153 2
原创 机器学习笔记之二十——Factorization Machines(FM)
Factorization Machines,为什么会出现这个东西? (1)、在推荐系统中,数据矩阵往往是十分稀疏的,而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感,无法找到一个好的分割超平面。 (2)、推荐系统中有诸多基于内容的推荐算法、协同过滤等算法框架,但是一般某个业务的模型不具备一般化能力,不能拿到别的业务中使用。 基于...
2019-02-26 21:42:03 3016 2
原创 tensorflow高阶API——Estimator
tensorflow在DL社区火热,无论写个什么算法都要搞在tensorflow上面。我喜欢tensorflow的两个地方,一是分布式方便,二是跑GPU方便,然而tensorflow终究是个科学计算库,要在上面进行算法的研发和工程化,还是有点儿裸奔的感觉。 所以,我选择Estimator。 这是某tensorflow内部大佬公开演讲时拿出来的一个架构图,最底层一个分布式ten...
2019-02-25 14:31:58 978
原创 启发式算法之蚁群算法、模拟退火算法
什么是启发式算法? 启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。 ...
2019-02-21 14:45:33 2477
原创 机器学习笔记之十九——决策树的损失函数(补充)
决策树生长的核心在于如何选择最优特征作为当前结点分割的特征。 当决策树如此生长完成后,对训练集程度会很好,但是对测试集一般都会出现高方差、过拟合的现象,如何预防这种现象,就是之前提到的预剪枝、后剪枝方法。 而剪枝过程换个方法来讲,其实就是在优化降低Loss function的的过程。 Loss function 设决策树T的叶节点个数为, 是树的叶节点,该叶节点有个...
2019-02-10 22:15:17 4216
原创 机器学习笔记之十八——分别从象限和泰勒理解牛顿法
牛顿法与梯度下降法作用相同,都是求解函数用的,在机器学习问题中,就是求解损失函数,寻找最优参数。 1、从几何图像来看牛顿法 有一个待解函数 ,我们要求它的0点解x*,用牛顿法。 假设有一个点x0十分接近x*,在这个点对函数曲线做切线。如果x0点之下的曲线斜率保持不变,那么这条切线与的0点解(即切线与x轴的交点)就是曲线的零点解。实际上,斜率在变,这时我们又发现,...
2019-02-10 00:04:12 336
原创 算法题之二——内旋打印矩阵
题目来源牛客网:https://www.nowcoder.com/practice/9b4c81a02cd34f76be2659fa0d54342a?tpId=13&tqId=11172&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking输入一个矩阵,按照从外向里以顺时...
2019-02-06 22:56:38 276
原创 算法题之一——求镜像二叉树
题目来自牛客网:https://www.nowcoder.com/practice/564f4c26aa584921bc75623e48ca3011?tpId=13&tqId=11171&tPage=1&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-ranking ...
2019-02-06 22:51:42 257
原创 机器学习笔记之十七——VC dimension
定义 VC维(外文名Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它...
2019-02-06 22:44:23 684
原创 机器学习笔记之十六——模型融合Blending
Blending方法是区别于bagging和boosting的另一种集成模型的方法。 在已经得到多个弱学习器的状况下,如何将这些弱学习器的预测值联合起来,得到更好的预测值,就是Blending做的事情。 1、Uniform Blending uniform Blending(平均Blending)是最简单的一种Blending方法。 定义:已知多个弱学习器,每...
2019-02-03 22:11:58 3282
原创 机器学习笔记之十五——lightgbm之直方图算法
lightgbm使用时有一个参数“max_bin”一直在用,但是一直比较模糊,于是想搞它一搞。 max_bin官方文档的解释:max number of bins that feature values will be bucketed insmall number of bins may reduce training accuracy but may increase gen...
2019-02-02 17:57:45 1686
xiaoshuo_03_6-6.zip
2019-06-11
sparkstreaming2.3_kafka0.8_jar包集合
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人