![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
cjjwwss
这个作者很懒,什么都没留下…
展开
-
使用@property
在绑定属性时,如果我们直接把属性暴露出去,虽然写起来很简单,但是,没办法检查参数,导致可以把成绩随便改:s = Student()s.score = 9999这显然不合逻辑。为了限制score的范围,可以通过一个set_score()方法来设置成绩,再通过一个get_score()来获取成绩,这样,在set_score()方法里,就可以检查参数:class Student(object):...转载 2018-04-14 14:33:29 · 193 阅读 · 0 评论 -
Windows上使用“LogView”打开大文件
最近因为工作需要要打开一个300+MB的文件,试过了N个编辑器不是打不开就是软件直接挂掉或是占用内存太大,已经严重影响了我的工作还好在网络上找到老外写的一个免费软件,官网上说是可以打开4G+的文件(没有测试过这么大的),官网介绍:LogViewer Pro is a viewer for text log files.Features include:Fast scrolling, eats lo...转载 2018-05-31 16:15:47 · 8508 阅读 · 4 评论 -
MongoDB学习之路 (五):更新操作符(Update Operators)
MongoDB学习之路 (五):更新操作符(Update Operators).2ndwww.cnblogs.com 2013-05-15 00:18本文地址:http://www.cnblogs.com/egger/archive/2013/05/01/3053617.html 欢迎转载 ,请保留此链接๑•́ ₃•̀๑!通常文档只会有一部分要更新。利用原子的更新修改器,可以使得这...转载 2018-09-01 09:59:50 · 10837 阅读 · 0 评论 -
如何产生好的词向量?
词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时,不同的训练数据,参数,模型等都会对产生的词向量有所影响,那么如何产生好的词向量对于...转载 2018-09-13 16:51:04 · 1813 阅读 · 0 评论 -
手把手教您解决90%的自然语言处理问题
手把手教您解决90%的自然语言处理问题NLP是一个非常大的领域,NLP有几个最常使用的关键应用:识别不同的用户/客户群。准确的检测和提取不同类别的反馈。根据意图对文本进行分类。本文将讲解如何从头开始有效地处理这些问题的指南和技巧:首先解释如何构建机器学习解决方案来解决上面提到的问题。然后转向更细致的解决方案,比如特性工程、单词向量和深度学习。第一步:收集你的数据每个机器学习问题...转载 2018-10-26 10:50:29 · 514 阅读 · 0 评论 -
深度学习与NLP
深度学习目前已经在NLP领域站稳脚跟 ,但是还没有成熟到像语音和图像那样可以和人类PK的程度,所以目前还是上升期,有三个点非常值得关注:1. 深度学习最初进入NLP走的是端到端的路线,靠无需人工特征知识即可达到state-of-art的卖点在NLP站稳脚跟。但是后面的发展过程中大家逐渐发现,只靠端到端是不行的。这个不仅仅是因为很多NLP任务监督数据匮乏的问题,因为在机器翻译这种语料充足的任...转载 2018-10-26 11:21:33 · 3245 阅读 · 0 评论 -
python3去除UTF-8的BOM前缀(\xef\xbb\xbf)
做实验的时候,出现了莫名其妙的错误,打印出来一看,同样的字符,判断的却不想等,因为二者的编码不同,通过查资料,发现是bom编码的问题,即前面多了\xef\xbb\xbf网上相关的方法很多,另存为无bom格式的,是最直接了当的方法但是,我另存了之后,也还是出错,貌似没效果于是,还是决定从代码中qu去除掉\xef\xbb\xbf网上的方法很多,大多数是针对zhen整个文件的头部有\xe...原创 2018-12-03 16:33:51 · 5815 阅读 · 0 评论 -
【不可思议的Word2Vec】 2.训练好的模型
由于后面几篇要讲解Word2Vec怎么用,因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间,并且保证读者可以复现后面的结果,笔者决定把这个训练好的模型分享出来,用Gensim训练的。单纯的词向量并不大,但第一篇已经说了,我们要用到完整的Word2Vec模型,因此我将完整的模型分享出来了,包含四个文件,所以文件相对大一些。提醒读者的是,如果你想获取完整的Word2Vec模型,又不想改源...转载 2018-05-15 22:11:21 · 9036 阅读 · 12 评论 -
情感分析
由 Editor 于 2015 年 10 月 08 日 发布在 数据科学 栏目情感分析的新方法1 评论 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的,但是情感量化分析已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或...转载 2018-05-15 17:43:13 · 5811 阅读 · 0 评论 -
在深度学习时代用 HowNet 搞事情 刘知远 01-09
在深度学习时代用 HowNet 搞事情刘知远 01-092017 年 12 月底,清华大学张钹院士做了一场题为《AI 科学突破的前夜,教授们应当看到什么?》的精彩特邀报告。他认为,处理知识是人类所擅长的,而处理数据是计算机所擅长的,如果能够将二者结合起来,一定能够构建出比人类更加智能的系统。因此他提出,AI 未来的科学突破是建立一种同时基于知识和数据的 AI 系统。我完全赞同张钹老师的学术观点。最...转载 2018-04-15 20:38:23 · 826 阅读 · 0 评论 -
Python做文本情感分析之情感极性分析
导语「NLP」最为目前及其火热的一个领域,已经逐渐渗透进越来越多产业的各项业务中,不知死活的胖子决定对常用的应用功能挨个进行尝试,死活不论……0. 介绍「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中,前者多用于舆情监控和信息预测,后者可帮助用户了解某一产品在大众心目中的口碑。目前常见的...转载 2018-04-15 21:22:53 · 50832 阅读 · 8 评论 -
在 Python 应用中使用 MongoDB的方法
在这篇文章中,将向您展示如何使用Python链接目前主流的MongoDB(V3.4.0)数据库,主要使用PyMongo(v3.4.0)和MongoEngine(V0.10.7)。同时比较SQL和NoSQL。英文原文:https://realpython.com/blog/python/introduction-to-mongodb-and-python1、SQL vs NoSQL 如果你不是很熟...转载 2018-04-24 09:13:18 · 670 阅读 · 0 评论 -
Python做文本情感分析之情感极性分析
导语「NLP」最为目前及其火热的一个领域,已经逐渐渗透进越来越多产业的各项业务中,不知死活的胖子决定对常用的应用功能挨个进行尝试,死活不论……0. 介绍「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中,前者多用于舆情监控和信息预测,后者可帮助用户了解某一产品在大众心目中的口碑。目前常见的...转载 2018-05-11 10:12:30 · 10504 阅读 · 2 评论 -
情感分析资源 (转)
中文的 http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html情感词典1.知网的情感词典- http://www.keenage.com/html/c_bulletin_2007.htm由知网发布的词典,包括中文情感词典和英文情感词典(以下需要论坛积分)2.台湾大学的情感极性词典- http://www.datatang.com/data...转载 2018-05-11 10:14:43 · 517 阅读 · 0 评论 -
电影文本情感分类
电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec。# -*- coding: UTF-8 -*-import pandas as pdimp...转载 2018-05-11 10:17:23 · 2120 阅读 · 0 评论 -
基于情感词典的情感打分
原理我就不讲了,请移步下面这篇论文,包括情感词典的构建(各位读者可以根据自己的需求稍作简化),以及打分策略(程序对原论文稍有改动)。论文在这里下载:基于情感词典的中文微博情感倾向性研究 (大家可以上知网自行下载)本文采用的方法如下: 首先对单条微博进行文本预处理,并以标点符号为分割标志,将单条微博分割为n个句子,提取每个句子中的情感词 。以下两步的处理均以分句为处理单位。第二步在情感词表中寻找情...转载 2018-05-11 10:22:29 · 7592 阅读 · 6 评论 -
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
阅读目录1. 词向量2.Distributed representation词向量表示3.词向量模型4.word2vec算法思想5.doc2vec算法思想6.参考内容 深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? 引用三年前一位网友的话来讲...转载 2018-05-21 10:39:04 · 1017 阅读 · 0 评论 -
信息论中的熵(信息熵,联合熵,交叉熵,互信息)和最大熵模型
摘要: 1.信息的度量 2.信息不确定性的度量 内容:1.信息的度量 直接给出公式,这里的N(x)是随机变量X的取值个数,至于为什么这么表示可以考虑以下两个事实: (1)两个独立事件X,Y的联合概率是可乘的,即,而X,Y同时发生的信息量应该是可加的,即,因此对概率取了负对数(保证非负) (2)一个时间发生的概率越大,其信息量越小,因此对概率取了负对数(保证非负)举两个例子便于理解: 一...转载 2018-05-15 11:52:55 · 3531 阅读 · 0 评论