关闭
当前搜索:

Latent Semantic Analysis(LSA/ LSI)算法简介

1. 传统向量空间模型的缺陷   向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。   向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行...
阅读(14) 评论(0)

微信跳一跳游戏外挂(mac电脑+android手机)

外挂源码地址:https://github.com/wangshub/wechat_jump_game 下面我们对这款外挂源码进行分析。 外挂的依赖 实现的原理 这款辅助外挂需要手机连接PC,PC通过adb命令对手机游戏界面截图,并保存在PC上。 PC端根据保存的图片进行处理(...
阅读(1019) 评论(0)

数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法: 一、min-max标准化(Min-Max Normalization) 也称为...
阅读(46) 评论(0)

SVM支持向量机算法介绍

如果你是一名模式识别专业的研究生,又或者你是机器学习爱好者,SVM是一个你避不开的问题。如果你只是有一堆数据需要SVM帮你处理一下,那么无论是Matlab的SVM工具箱,LIBSVM还是python框架下的SciKit Learn都可以提供方便快捷的解决方案。但如果你要追求的不仅仅是会用,还希望挑战一下“理解”这个层次,那么你就需要面对一大堆你可能从来没听过的名词,比如:非线性约束条件下的最优化、...
阅读(373) 评论(0)

CSV文件导入Neo4j数据库

1.Excel转换CSV 1.1节点文件 Excel 格式 注:请严格按照格式输入,若某个单元格不输入数据,会导致之后导入数据库失败,请用空格代替 1.2 Excel文件另存为csv格式 注:请修改文件格式为utf-8,无BOM编码格式,防止出现中文乱码 2.CSV节点文件导入Neo4j 2.1 CSV节点文件格式(1.csv) 字段一...
阅读(39) 评论(0)

neo4j图数据库--Cypher语言入门 二

1、 什么是Cypher 2、写(create、merge、set、delete、remove、foreach、import) 3、读(match、optional match、where、start、聚合) 4、常规(return、order by、limit、skip、with、unwind、union) 5、函数(谓词、标准函数、集合函数、数学函数、字符串...
阅读(93) 评论(0)

分类问题、标注问题与回归问题的区别

1.分类问题 分类问题是监督学习的一个核心问题。在监督学习中,当输出变量Y,Y取有限个离散值时,预测问题便成为分类问题。 监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称为分类。 分类问题包括学习与分类两个过程。在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器;在分类中,利用学习...
阅读(56) 评论(0)

Neo4j简介及Py2Neo的用法(python操作neo4j)

Neo4j是一个世界领先的开源图形数据库,由 Java 编写。图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系。 Neo4j 的数据由下面几部分构成: 节点边属性 Neo4j 除了顶点(Node)和边(Relationship),还有一种重要的部分——属性。无论是顶点还是边,都可以有任意多的属性。属性的存放类似于一个 HashMap,Key 为一...
阅读(198) 评论(0)

neo4j配置

neo4j-community-3.3.0常用配置 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748 # 修改第9行,去掉#,修改数据库名dbms.active_database=wkq_graph.db# 修改第12行,去掉#。修改路径,改成绝...
阅读(241) 评论(0)

图数据挖掘浅析

互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面加了一些约束而派生出来的结构。所以图是一个一般性的结构,可以适应于任何结构类型的数据。   一、什么是图数据挖掘   这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘...
阅读(1116) 评论(0)

python爬虫利器--beautiful Soup

1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beauti...
阅读(85) 评论(0)

2017-12月

个人心得关于图数据库                  2017-12-01    数据科学领域有名名言叫“一图胜千言”。图数据库的优势在于能通过“实体”和“关系”这种简单直观的描述方法来表述现实世界中错综复杂的关联关系。然而,图数据库呈现信息的方式,并不限于简单的节点和边。它可以提供逐层挖掘的方式,引导用户逐步深入分析各种关系;还可以快速及时地呈现实体之间最新的关系变化,为用户积累新鲜的知识...
阅读(69) 评论(0)

推荐算法--基于物品的协同过滤算法

ItemCF:ItemCollaborationFilter,基于物品的协同过滤 算法核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品。 比如,用户A之前买过《数据挖掘导论》,该算法会根据此行为给你推荐《机器学习》,但是ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。 ==>该算法认为,物品A和物品B...
阅读(164) 评论(0)

推荐算法概述:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法

所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法主要分为两种 1. 基于内容的推荐      基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法:启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关...
阅读(291) 评论(0)

推荐算法--基于用户的协同过滤算法

基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。 我们先来看看基于用户的协同过滤算法,基于物品的协同过滤算法大体思路和基于用户的差不多,可以自己参考对比学习。 基于用户的协同过滤算法       每年新学期开始,刚进实验室的师弟总会问师兄相似的问题,比如“我应该买什么专业书啊”、“我应该看什么论文啊”等。这个时候,师兄一般会给他们做出一些推...
阅读(77) 评论(0)

关联规则分析 二

关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 故事         在描述有关关联规则的一些细节之前,先来看一个有趣的故事: "尿布与啤酒"的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个...
阅读(187) 评论(0)

关联规则分析 一

数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也就是说很大一部分顾客会同时购买床单和...
阅读(206) 评论(0)

matplotlib常用函数subplot

matplotlib下 一个 Figure 对象可以包含多个子图(Axes), 可以使用 subplot() 快速绘制, 其调用形式如下 : subplot(numRows, numCols, plotNum)1 图表的整个绘图区域被分成 numRows 行和 numCols 列 然后按照从左到右,从上到下的顺序对每个子区域进行编号,左上的子区域的编号为1 ...
阅读(69) 评论(0)

机器学习---分类、回归、聚类、降维的区别

由上图我们可以看到,机器学习分为四大块,分别是  classification (分类),  regression (回归),   clustering (聚类),   dimensionality reduction (降维)。 给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y 是连续...
阅读(223) 评论(0)

Python---copy()、deepcopy()与赋值的区别

copy()与deepcopy()之间的主要区别是python对数据的存储方式。 首先直接上结论: —–我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。  —–而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化...
阅读(96) 评论(0)
830条 共42页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:771887次
    • 积分:11814
    • 等级:
    • 排名:第1474名
    • 原创:374篇
    • 转载:449篇
    • 译文:7篇
    • 评论:60条
    最新评论