python3去除UTF-8的BOM前缀(\xef\xbb\xbf)

做实验的时候,出现了莫名其妙的错误,打印出来一看,同样的字符,判断的却不想等,因为二者的编码不同,通过查资料,发现是bom编码的问题,即前面多了\xef\xbb\xbf 网上相关的方法很多,另存为无bom格式的,是最直接了当的方法 但是,我另存了之后,也还是出错,貌似没效果 于是,还是决定从...

2018-12-03 16:33:51

阅读数 849

评论数 0

深度学习与NLP

深度学习目前已经在NLP领域站稳脚跟 ,但是还没有成熟到像语音和图像那样可以和人类PK的程度,所以目前还是上升期,有三个点非常值得关注: 1. 深度学习最初进入NLP走的是端到端的路线,靠无需人工特征知识即可达到state-of-art的卖点在NLP站稳脚跟。但是后面的发展过程中大家逐渐发现,只...

2018-10-26 11:21:33

阅读数 260

评论数 0

手把手教您解决90%的自然语言处理问题

手把手教您解决90%的自然语言处理问题 NLP是一个非常大的领域,NLP有几个最常使用的关键应用: 识别不同的用户/客户群。 准确的检测和提取不同类别的反馈。 根据意图对文本进行分类。 本文将讲解如何从头开始有效地处理这些问题的指南和技巧:首先解释如何构建机器学习解决方案来解决上面提到的问题。然...

2018-10-26 10:50:29

阅读数 52

评论数 0

半监督学习总结

半监督学习是监督学习和非监督学习的混合体,训练数据包括标注数据和非标注数据。根据学习目标分为两类:一类是监督学习任务,得到输入—输出的映射函数,利用未标注数据进行函数的优化;另一类是非监督学习任务,得到聚类的结果,利用标注数据提高效果。 一、监督学习任务 首先利用标注数据获得一个函数,然后利用...

2018-10-25 08:21:24

阅读数 614

评论数 0

数据集大全:25个深度学习的开放数据集

https://segmentfault.com/a/1190000014230303 摘要: 还在发愁找不到数据集训练你的模型?快来收藏一下史上最全的深度学习数据集汇总吧,有它在,一切都ok~ 介绍 深度学习的关键是训练。无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法。 但...

2018-10-12 16:06:52

阅读数 830

评论数 0

如何产生好的词向量?

词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这...

2018-09-13 16:51:04

阅读数 935

评论数 0

MongoDB学习之路 (五):更新操作符(Update Operators)

MongoDB学习之路 (五):更新操作符(Update Operators).2nd www.cnblogs.com 2013-05-15 00:18 本文地址:http://www.cnblogs.com/egger/archive/2013/05/01/3053617.html   欢迎...

2018-09-01 09:59:50

阅读数 976

评论数 0

Windows上使用“LogView”打开大文件

最近因为工作需要要打开一个300+MB的文件,试过了N个编辑器不是打不开就是软件直接挂掉或是占用内存太大,已经严重影响了我的工作还好在网络上找到老外写的一个免费软件,官网上说是可以打开4G+的文件(没有测试过这么大的),官网介绍:LogViewer Pro is a viewer for text...

2018-05-31 16:15:47

阅读数 2740

评论数 0

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

阅读目录1. 词向量2.Distributed representation词向量表示3.词向量模型4.word2vec算法思想5.doc2vec算法思想6.参考内容  深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结...

2018-05-21 10:39:04

阅读数 432

评论数 0

【不可思议的Word2Vec】 2.训练好的模型

由于后面几篇要讲解Word2Vec怎么用,因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间,并且保证读者可以复现后面的结果,笔者决定把这个训练好的模型分享出来,用Gensim训练的。单纯的词向量并不大,但第一篇已经说了,我们要用到完整的Word2Vec模型,因此我将完整的模型分享出来...

2018-05-15 22:11:21

阅读数 2066

评论数 3

情感分析

由 Editor 于 2015 年 10 月 08 日 发布在 数据科学 栏目情感分析的新方法1 评论        情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管...

2018-05-15 17:43:13

阅读数 1473

评论数 0

信息论中的熵(信息熵,联合熵,交叉熵,互信息)和最大熵模型

摘要:  1.信息的度量  2.信息不确定性的度量 内容:1.信息的度量  直接给出公式,这里的N(x)是随机变量X的取值个数,至于为什么这么表示可以考虑以下两个事实:  (1)两个独立事件X,Y的联合概率是可乘的,即,而X,Y同时发生的信息量应该是可加的,即,因此对概率取了负对数(保证非负)  ...

2018-05-15 11:52:55

阅读数 1460

评论数 0

基于情感词典的情感打分

原理我就不讲了,请移步下面这篇论文,包括情感词典的构建(各位读者可以根据自己的需求稍作简化),以及打分策略(程序对原论文稍有改动)。论文在这里下载:基于情感词典的中文微博情感倾向性研究 (大家可以上知网自行下载)本文采用的方法如下:  首先对单条微博进行文本预处理,并以标点符号为分割标志,将单条微...

2018-05-11 10:22:29

阅读数 1403

评论数 1

电影文本情感分类

电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2...

2018-05-11 10:17:23

阅读数 638

评论数 0

情感分析资源 (转)

中文的 http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html情感词典1.知网的情感词典- http://www.keenage.com/html/c_bulletin_2007.htm由知网发布的词典,包括中文情感词典和英文情感词典(以...

2018-05-11 10:14:43

阅读数 205

评论数 0

Python做文本情感分析之情感极性分析

导语「NLP」最为目前及其火热的一个领域,已经逐渐渗透进越来越多产业的各项业务中,不知死活的胖子决定对常用的应用功能挨个进行尝试,死活不论……0. 介绍「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的...

2018-05-11 10:12:30

阅读数 1508

评论数 1

在 Python 应用中使用 MongoDB的方法

在这篇文章中,将向您展示如何使用Python链接目前主流的MongoDB(V3.4.0)数据库,主要使用PyMongo(v3.4.0)和MongoEngine(V0.10.7)。同时比较SQL和NoSQL。英文原文:https://realpython.com/blog/python/introd...

2018-04-24 09:13:18

阅读数 221

评论数 0

Python做文本情感分析之情感极性分析

导语「NLP」最为目前及其火热的一个领域,已经逐渐渗透进越来越多产业的各项业务中,不知死活的胖子决定对常用的应用功能挨个进行尝试,死活不论……0. 介绍「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的...

2018-04-15 21:22:53

阅读数 13007

评论数 6

在深度学习时代用 HowNet 搞事情 刘知远 01-09

在深度学习时代用 HowNet 搞事情刘知远 01-092017 年 12 月底,清华大学张钹院士做了一场题为《AI 科学突破的前夜,教授们应当看到什么?》的精彩特邀报告。他认为,处理知识是人类所擅长的,而处理数据是计算机所擅长的,如果能够将二者结合起来,一定能够构建出比人类更加智能的系统。因此他...

2018-04-15 20:38:23

阅读数 343

评论数 0

使用@property

在绑定属性时,如果我们直接把属性暴露出去,虽然写起来很简单,但是,没办法检查参数,导致可以把成绩随便改:s = Student() s.score = 9999 这显然不合逻辑。为了限制score的范围,可以通过一个set_score()方法来设置成绩,再通过一个get_score()来获取成绩,...

2018-04-14 14:33:29

阅读数 41

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭