2018年08月_会飞的小罐子

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创关于python的机器学习与数据挖掘的相关的包

数据库类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle Redis redis rredis MongoDB pymongo RMongo, rmongodb neo4j py2neo RNeo4j...

2018-08-28 13:33:10 715

原创 kmeans，k-medoids，DBSCAN聚类(密度聚类)

在实习的时候，做的基本上都是没有类标的数据，这让经常在实验室用带类标的数据做实验的我很是头疼。主要是为了熟悉聚类的一些方法，下面介绍聚类以及相应的实现方法，大部分都是别人写的，只是看过后收集整理。什么是聚类？聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类，但是究竟分成多少类，这个要取决于文档集合里文档自身的性质。下面这个图就是一个简单的例子，我们可以把不同的文档聚合为3类...

2018-08-28 11:25:19 5841

0 前言Attention-over-Attention模型（AOA Reader模型）是科大讯飞和哈工大在2017ACL会议上的《Attention-over-Attention Neural Networks for Reading Comprehension》（论文地址）联合提出的。科大讯飞和哈工大在2016ACL会议上发表的另一篇论文《Consensus Attention-based...

2018-08-27 20:58:13 3719

原创关于jupter运行tf文件出错

UnrecognizedFlagError: Unknown command line flag 'f' 解决方法：在前面定义模块添加 tf.app.flags.DEFINE_string('f', '', 'kernel')

2018-08-26 19:53:10 272

转载 tensorflow的几种next_batch方法

此处给出了几种不同的next_batch方法，该文章只是做出代码片段的解释，以备以后查看：def next_batch(self, batch_size, fake_data=False): """Return the next `batch_size` examples from this data set.""" if fake_data: fake_imag...

2018-08-26 19:16:32 3783

原创 Python3 文件读写r，w，a

f = open('yesterday','r+') # r+就是读写模式，先读一个文件，在最后写！！最常用的f = open('yesterday','w+') # r+就是写读模式，先创建一个文件再往文件里面写f = open('yesterday','a+') # a+就是追加读写模式，先读取f = open('yesterday','rb') # rb就是读二进制文件（传输文件...

2018-08-23 13:39:42 1892

转载 SimHash算法

SimHash算法可计算文本间的相似度，实现文本去重。文本相似度的计算，可以使用向量空间模型(VSM)，即先对文本分词，提取特征，根据特征建立文本向量，把文本之间相似度的计算转化为特征向量距离的计算，如欧式距离、余弦夹角等。但这样做的缺点是复杂度会很高。基于VSM的文本相似度计算，对于小量数据处理是可以的，但对于百度，google这样的搜索引擎，爬虫每天爬取的网页数目大得惊人，为了防止网...

2018-08-19 20:39:08 3919

转载文本匹配：语义相关性

语义相关性，比如搜索，查询词和文档如果关键字不一样，但两者是多词一义，则模型不理解语义，做语义上的匹配解决不了问题。在推荐中，商品可以由一个向量来刻画，用户也可以由一系列交互过的商品来表达，两者之间做一些语义上的匹配，能推荐出一些有新意的商品，增加推荐多样性。而传统的方法比如CF，CB等，无法学习得到这种用户和商品的相对间接的联系。适用场景：阅读理解，QA，搜索，语义蕴含，推荐，广告等。 ...

2018-08-19 19:52:46 10163

转载深度文本匹配发展总结

1、背景介绍文本匹配是自然语言处理中的一个核心问题，很多自然语言处理的任务都可以抽象成文本匹配问题，例如信息检索可以归结成查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型，提高匹配的准确率成为自然语言处理任务的重要挑战。2、数据集介绍论文中经常用到的数据集：SNLI：570K条人工标注的英文句子对，la...

2018-08-19 10:53:17 1383

转载时间序列分类

时间序列分类比较麻烦是因为我们用于模型训练的数据的每条样本一般是一个特征向量x对应一个y的形式，而时间序列的大量的信息藏在它的结构中，不仅仅体现在数值上。没意识到这一点的话，我们提取的特征可能就没有什么价值。（其实意识到了也没用，因为还是不会处理。）总结通过把K近邻（K=1）和动态时间规整距离结合起来，能得到一个效果突出的时间序列分类器，解决了很多人面对时间序列无所下手的问题。有兴趣的...

2018-08-19 10:15:16 14533 3

转载极大似然估计与最大后验概率估计

前言不知看过多少次极大似然估计与最大后验概率估计的区别，但还是傻傻分不清楚。或是当时道行太浅，或是当时积累不够。这次重游机器学习之路，看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险最小化时谈到了极大似然与最大后验的话题，第一反应是竟然在第一章就谈到了极大似然与最大后验，相信大部分初学者看到这两个词时还是怕怕的，毕竟没有太多理论基础。不过没关系，多积累，多搜集相关资料，相信...

2018-08-16 22:01:36 794

原创 Tableau Desktop Pro中文破解版

Tableau Desktop Pro中文破解版是一款专业的数据分析软件，如今Tableau 10已经推出，在界面上，开发团队重新考量了界面中的每一个元素，精心设计的新调色板可在复杂的可视化中确保形状感知均衡，并在需要时突出相关内容。新版本以数据为中心进行设计，数据集成有助于人人将尽可能多的时间用于分析，借助拖放群集之类的创新性数据分析功能，任何人可以在无需编程的情况下对自己的数据执行更多高级分析...

2018-08-15 17:33:18 22443 6

转载 python：Redirection is not supported.

Redirection isnot supported. 不支持重定向解决方法：cmd: 在CMD命令行中，输入 “python” + “空格”，即 ”python “；将已经写好的脚本文件拖拽到当前光标位置，然后敲回车运行即可pycharm:Run->Edit Configurations，勾选 “Emulate terminal in output console”...

2018-08-12 16:42:47 3440

原创 Windows下使用Python的Curses库时 No module named _curses问题

最近在跑cnn，代码中需要引用到 curses库。我是在windows环境下进行编写的，除去在学习过程中的各种错误之后，代码仍然运行出错。报这样的错误：首先这个问题产生的根本原因是 curses 库不支持 windows。所以我们在下载完成python后（python 是自带 curses 库的），虽然在 python目录\Lib 中可以看到 curses 库，但其实我们是不能使用...

2018-08-12 15:52:51 8836 4