![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习 / 深度学习
grafx
这个作者很懒,什么都没留下…
展开
-
深度学习之卷积神经网络学习摘录(一)
搞深度学习,卷积神经网络需要耐住性子,顶住压力。耐住性子,因为每次调整参数后,随后就是漫长的模型训练过程,可能训练1天、3天,甚至更久才能出结果,需要等,不向平时写程序那样,编码完成后,编译、运行、调试都是分分钟的事。原创 2017-01-14 17:49:08 · 2781 阅读 · 3 评论 -
推荐系统技术之文本相似性计算(三)
这是第3篇:https://segmentfault.com/a/1190000005599507前面说了两篇了,分别介绍了TFIDF和向量空间的相关东西,然后介绍了主题模型,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。0. 工具准备工欲善其事,必先利其器,那么我们先来利其器,这里我们使用的是python的gensim工具包,地址是...转载 2018-07-01 10:01:41 · 612 阅读 · 0 评论 -
推荐系统技术之文本相似性计算(二)
这是第2篇:https://segmentfault.com/a/1190000005569529上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的层次上来,正因为这样才有了自然语言处理这门课程了。今天我们稍微说说这个吧,后台留言很多朋友对这方面...转载 2018-07-01 09:59:49 · 406 阅读 · 0 评论 -
推荐系统技术之文本相似性计算(一)
六月就这么过去了,才写了2篇原创博客,月初时定的目标是至少4篇的,一天天也是瞎忙,有时各种琐事也搞得人很烦躁,七月争取多写几篇,流水账也没关系,只要动笔就行。前段时间看了几篇文本相似性的文章,觉得写的挺不错的,思路清晰,有理论、有实践,佩服原文作者,实际中并不一定会采用这样的相似性算法,但是很有参考价值,决定转发过来。 下面是原文地址:https://segmentfau...转载 2018-07-01 09:57:21 · 1627 阅读 · 0 评论 -
使用python语言编写常见的文本分类算法
自然语言处理中一个很常见的操作就是文本分类,比如一组新闻文本,通过分类模型,将新闻文本分为政治、体育、军事、娱乐、财经等等几大类。那么分类第一步就是文本向量化,前一篇博客讲了一些,本文可以说是前文的实践版本。本文主要介绍一些常见的文本分类模型,说是介绍,其实主要以代码和结果为主,并不会详细的介绍每个算法的思想、原理、推导过程等,那样的话,估计可以写一个7、8篇的系列了,另外我也发现很...原创 2018-06-21 22:07:20 · 4018 阅读 · 4 评论 -
自然语言处理中的词袋模型与文本向量化
前段时间做了一些自然语言处理方面的工作,自然语言处理不像图像处理,每个像素点都是数值,也可以看做是天然的特征,可以直接代入公式参与各种运算,但是自然语言不行,都是文字,计算机理解不了,计算机只认0/1,不认啊喔额,所以给定一段文本,若对其进行各种处理,比如通过算法自动文本分类,通常需要先把文本表达成机器可以处理的数据类型,也就是将文本中的一个个词或字转变成数字,这样机器才能进行常规的...原创 2018-06-04 22:15:06 · 3911 阅读 · 0 评论 -
使用fastText进行文本分类及源码分析时的一点感受
最近工作涉及到文本分类问题,就尝试用了一下fastText库,fastText是facebook开源的一个词向量计算以及文本分类工具库,准确率比肩深度学习。如其名,fastText在训练时贼快,这也是该库最大的优势,相比cnn动辄几小时、十几小时的漫长训练过程,fastText只需几分钟就训练完成。原创 2017-12-02 19:58:34 · 9098 阅读 · 1 评论 -
windows环境下使用wiki中文百科及gensim工具库训练词向量
本文主要介绍windows环境下使用python语言,调用gensim工具库训练词向量的过程。说了这么多,那到底什么是词向量呢,为啥要训练这个东东? 自然语言处理的都是文字,比如要对100个文字的小段文本做分析,而算法运算需要的输入是数字,比如y=w*x +b,不管你是中文汉字还是英文字母,都需要将文字映射成数字才行,映射后的结果就是词向量了。原创 2017-11-19 18:58:13 · 2519 阅读 · 0 评论 -
AlphaGo Zero都开始自学了,你今天机器学习了吗
随着深度学习在多个领域落地开花,比如:人脸技术、图像识别准确率一再被提高,但都算是机器学习圈子的新闻,而阿尔法狗与李世石的人机大战应该算是引爆点,开启了这次人工智能的大潮。原创 2017-10-21 17:49:34 · 808 阅读 · 0 评论 -
朴素贝叶斯算法学习及代码示例
朴素贝叶斯算法,基本可以一句话概括:贝叶斯定理 + 条件独立假设,贝叶斯定理就是我们数理统计课上学的定理, P(A|B) = P(B|A) P(A) / P(B),而条件独立假设指的是:解决分类问题时,会选取很多数据特征,为了降低计算复杂度,那么假设数据各个维度的特征相互独立。原创 2017-09-03 17:02:52 · 10108 阅读 · 0 评论 -
深度学习之卷积神经网络编程实现(二)
目前网上深度学习有关资料巨多,但多数都是转载,就算原创,但很多也是光说不练,理论公式一堆,但是靠谱代码没几行,能用的更是少之又少。paper看的溜、code写的溜的人还是比较少的。原创 2017-01-15 13:12:35 · 6908 阅读 · 5 评论 -
NLP11-基于Gensim的文本相似性挖掘[LsiModel]
摘要:通过对数据的抓取,基于jieba分词,去掉停用词,运用Gensim建立词典,生成BOW语料,运行tfidf模型计算词权重,采用LsiModel进行降维,最后运用Gensim提供的MatrixSimilarity类来计算两文档的相似性【基于余弦的距离的计算】。1. 爬取数据确定一个内容主题为健康信息类, python的requests包可以对所给的信息URL进行请求并抓取,可采用beautif...转载 2018-07-05 21:16:17 · 806 阅读 · 0 评论