公众号【五元杂货铺】-CSDN博客

原创 Mac安装Xcode

在最新系统的Mac os版本，可以直接从app store下载Xcode下载Xcode的时候一定注意，你的磁盘空间足够大，因为Xcode安装包就10几G的大小，空间不足就会安装失败，并且安装的过程比较长，需要耐心等待，运气好的话，半个小时或者一个小时就安装成功了。安装成功后，还需要安装一个插件。如果不安装插件的话，你在安装其他的软件的时候可能会报错：xcrun: error: invalid active developer path (/Library/Developer/CommandLin

2020-11-13 21:20:02 13246 2

原创 MAC XCode打开文件显示中文乱码

这是由于源编辑器编辑的文件在xcode中不识别，重新复制代码粘贴到Xcode即可

2020-11-13 21:07:56 855

原创 GraphX-基础知识-图术语解释

【导读】Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。但如果我们想熟练的开发Spark GraphX的应用程序还有很长的路要走，本系列文章是GraphX的从入门到精通，会持续更新，如果你对图计算感兴趣就关注起来吧。【前言】思考一个问题：现实生活中我们有哪些可用的图？以及这些可用的图都是什么样的图？有向图和无向图用图可以对事物以及事物之间的联系建模。首先来弄清楚【图3.9】中的有向图和无向图的不同。

2020-10-14 23:48:52 6267 2

原创利用aopc创建schema失败

执行neo4j-graph-algorithms的例子，运行以下代码报错： CALL apoc.schema.assert( {Category:[‘name’]}, {Business:[‘id’],User:[‘id’],Review:[‘id’]});报错信息： Neo.ClientError.Procedure.ProcedureRegistrationFailed apoc.sche...

2018-12-14 15:48:31 1243 1

原创关于基于检索的聊天机器人实现（具参考价值）

目前网上能找到的关于基于检索的聊天机器人开源代码基本上都是chatbot-retrieval这个项目，其余一些都是在基于这个版本的代码，大家修修改改换了个名字而已，参考意义不大，并且连博客文章都是翻译复制粘贴的。实际上按照他们博客内容和代码很难将这个项目跑起来，我也是踩了两天的坑，最终终于找到了所有项目和博客参考的源头，并整理出有参考意义的代码和博客。首先chatbot-retrieval...

2018-09-03 17:03:08 2779 1

转载 RNN 中学习长期依赖的三种机制

【转自知乎：https://zhuanlan.zhihu.com/p/34490114】目前大约有三类机制解决长期依赖的学习问题，分别是门机制、跨尺度连接和特殊初始化（及其维持）。【门机制】代表作 LSTM: Long Short-Term Memory GRU: Gated Recurrent Unit Minimal Gated Unit，详见 [1603.09420] ...

2018-08-30 17:35:26 5575

转载 BP（反向传播）算法

最近在看深度学习的东西，一开始看的吴恩达的UFLDL教程，有中文版就直接看了，后来发现有些地方总是不是很明确，又去看英文版，然后又找了些资料看，才发现，中文版的译者在翻译的时候会对省略的公式推导过程进行补充，但是补充的又是错的，难怪觉得有问题。反向传播法其实是神经网络的基础了，但是很多人在学的时候总是会遇到一些问题，或者看到大篇的公式觉得好像很难就退缩了，其实不难，就是一个链式求导法则反复用。如果...

2018-08-30 15:48:41 2402

转载几种常用的激活函数

1. sigmod函数函数公式和图表如下图在sigmod函数中我们可以看到，其输出是在[0,1]这个开区间内，我们可以联想到概率，但是严格意义上讲，不要当成概率。sigmod函数曾经是比较流行的，它可以想象成一个神经元的放电率，在中间斜率比较大的地方是神经元的敏感区，在两边斜率很平缓的地方是神经元的抑制区。当然，流行也是曾经流行，这说明函数本身是有一定的缺陷的。当输入稍微远离...

2018-08-30 11:13:35 9626

原创自然语言处理--基于规则（AIML）的问答机器人

基于规则（AIML）的问答机器人一个完整的智能应答语音机器人可以大致分成几个组成部分，以下为一个简单的流程，后续每个过程的细节可以拓展。首先我们需要接受到用户的语音；通过第三方的接口将语音转为文本；对文本分词和纠错；基于规则（正则表达式）的应答和基于检索的应答（或seq2seq，但这一般应用于自由场景）；将生成的答案转语音；本篇博客主要讲的是基于规则（正则表达式的应答），...

2018-08-27 11:29:22 7692 1

原创词向量学习总结

词向量又称词嵌入，是自然语言处理过程中对“基本单位”词的一种数学化表示，生成词向量的方法有神经网络，单词共生矩阵的降维，语言概率模型等。词向量的表示离散表示（one-hot representation）传统的基于规则或基于统计的自然语义处理方法看做一个原子符号，one-hot representation将每个词表示成一个长的向量，这个向量的维度就是词表（词空间）的大小，向量中只有一个...

2018-08-21 17:12:56 2594

转载 Deep Learning in NLP （一）词向量和语言模型

这篇博客是我看了半年的论文后，自己对 Deep Learning 在 NLP 领域中应用的理解和总结，在此分享。其中必然有局限性，欢迎各种交流，随便拍。　　Deep Learning 算法已经在图像和音频领域取得了惊人的成果，但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因，引一条我比较赞同的微博。@王威廉：Steve Renals算了一下icassp录取文章题目中包含dee...

2018-08-14 10:21:07 365 1

转载词向量模型（1）

词向量模型one-hot Vectorone-hot vector最简单的编码方式：假设我们的词库总共有n个词，那我们开一个1*n的高维向量，而每个词都会在某个索引index下取到1，其余位置全部都取值为0。问题这种词向量编码方式简单粗暴，我们将每一个词作为一个完全独立的个体来表达。遗憾的是，这种方式下，我们的词向量没办法给我们任何形式的词组相似性权衡。因为你开了一个极高维度的...

2018-08-14 09:55:59 11902

转载自然语言处理中的N-Gram模型详解

N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始，进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。基于N-Gram模型定义的字符串距离利用...

2018-08-13 16:25:09 3457

原创层次聚类详解(附代码)

本篇博客主要介绍机器学习算法中的层次聚类，层次聚类不同于传统的K-Means聚类算法，它在初始K值和初始聚类中心点的选择问题上会存在优势。层次聚类层次聚类就是一层一层的进行聚类，可以由下向上，或由上向下进行聚类。先计算样本之间的距离，每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最...

2018-07-31 14:48:39 15168 4

原创用Python连接HDFS

如果各位目前有用到大数据技术，相信很多的结果写在hdfs是最方便也最快速的。本篇博客就主要讲一下怎么利用python直接去连接HDFS文件系统，并对文件进行操作。Python连接hbase需要一个三方库（这里python版本2.7）hdfs，利用pip install hdfs即可下载安装。配置好HDFS Url：HDFSUrl = "http://***.***.***....

2018-07-30 09:53:03 7282 1

原创通过Phoenix存取Hbase

通过Phoenix存取Hbase目前官网正文中给出了通过Phoenix存取Hbase的方法，这里介绍的是pyspark版本的存取方法，对于从hbase中取数据，目前官网的方法没有什么问题。详细代码可见下方：try: TableName = options.HbaseTable df = spark.read \ .format("o...

2018-07-26 10:39:43 791

翻译基于PageRank的复杂网络社区发现

尽管许多真实世界网络节点间包含有向的连接，如互联网中各个网页之间的超链接，都是带有方向的，但是过去在有向网络中寻找社区通常都是忽略边的方向性，而直接应用无向网络中的方法。这种做法可能会损失一些包含在连接方向中的有用信息，而这些信息对于寻找社区可能是非常有帮助或至关重要的。为了研宄方便,这里使用无权有向连接的网络。通常网络中各节点的地位或重要性是不同的，社区通常也会以...

2018-06-27 15:50:16 8813 3

转载 GraphX社区发现----PageRank算法原理

本文将介绍PageRank算法的相关内容，具体如下：1.算法来源2.算法原理3.算法证明4.PR值计算方法4.1 幂迭代法4.2 特征值法4.3 代数法5.算法实现5.1 基于迭代法的简单实现5.2 MapReduce实现6.PageRank算法的缺点7.写在最后参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是分类目录[^ref_1] 的方法，即通过人工进行网页分类并整理...

2018-06-27 11:10:39 2330 1

原创 neo4j图数据库详解(1)

基本概念图数据库（Grahp Database）是基于图论实现的一种新型NoSQL数据库，它的存储结构和数据的查询方式都是以图论为基础的，图论中图的基本元素为节点和边，在图数据库中对应的就是节点和关系。在图数据中，数据与数据之间的关系通过节点和关系构成一个图结构并在此结构上实现数据库的所有特性，具有传统数据库的所有功能。与传统的关系数据库相同，图数据库的核心也是构建在一个引...

2018-05-24 10:03:38 2804

原创 SQuirrel SQL Client数据库连接工具的配置与使用

SQuirrel SQL Client介绍：SQuirrel SQL Client是一个用Java写的数据库客户端，用JDBC统一数据库访问接口以后，可以通过一个统一的用户界面来操作MySQL PostgreSQL MSSQL Oracle等等任何支持JDBC访问的数据库。使用起来非常方便。而且，SQuirrel SQL Client还是一个典型的Swing程序，也算是Swing的一个比较成功的应...

2018-05-18 11:56:22 20127

原创 Metabase安装与使用

下载：官网【https://www.metabase.com/start/】也可以下载汉化版：【http://www.bkill.com/download/155614.html】解压完成后会是一个jira包：metabase.jar命令行启动服务：java -jar metabase.jar访问地址：本地访问：访问【http://localhost:3000/setup】进行管理员账户设置，进入...

2018-05-02 13:20:31 4640 1

原创 hive查询数据导出到本地目录或hdfs的方法

查询出结果导入到hdfs文件：insert overwrite directory '/home/hive/test_data' row format delimited fields terminated by ',' select phone_no,other_cell_phone from relationship_phone_othphone_neo4j limit 100000;导出到...

2018-04-28 17:57:50 3165

翻译 networkx教程

创建一个图创建一个没有节点和边的空图。import networkx as nxG = nx.Graph()根据定义，a Graph是节点（顶点）的集合以及确定的节点对（称为边，链接等）。在NetworkX中，节点可以是任何可哈希对象，例如文本字符串，图像，XML对象，另一个Graph，自定义节点对象等。节点该图G可以以几种方式生长。NetworkX包含许多图形生成器功能和设施，以多种格式读取和写...

2018-04-28 15:37:39 29067 5

原创推荐系统----第三章（基于物品的协同过滤算法）

基于物品的协同过滤算法基于物品的协同过滤算法是目前业界应用最多的算法。算法主要分为两步计算物品之间的相似度根据物品的相似度和用户的历史行为给用户生成推荐列表其中，分母是喜欢物品i的用户数，而分子是同时喜欢物品i和物品j的用户数，因此上述公式可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j，但上述公式存在一个问题，如果物品j很热门，很多人喜欢，那么得到的W值就会很大，接近1。因此，该公式会造...

2018-04-23 16:49:08 1122

原创推荐系统----第二章（基于领域的算法-基于用户的协同过滤）

基于用户的协调过滤算法但是在该过程计算相似度时，算法的时间复杂度往往会很高，到遇到很大的数据量时会非常的耗时，事实上，很多用户相互之间并没有对同样的物品产生过行为，为此，可以构建一个物品到用户的倒排表，对于每个物品都保存对该物品产生过行为的用户列表。可以用以下代码实现：#建立物品倒排表,计算物品相似度def itemCF(user_dict): N=dict() C=defaul...

2018-04-23 16:06:12 1441

原创推荐系统----第一章（推荐系统基础概念）

推荐系统评价指标2.1 覆盖率覆盖率描述了一个推荐系统对物品长尾的发掘能力，最简单的覆盖率的定义为推荐系统能够推荐出来的物品占总物品集合的比列。假设系统用户的集合为U，推荐系统为每个用户推荐一个长度为N的物品列表R（u）。那么推荐系统的覆盖率可以通过下面公式计算。2.2 多样性用户的兴趣是广泛的，如果用户的推荐列表比较多样，覆盖了用户绝大多数的兴趣点，那么就会增加用户找到感兴趣物品的概率，多样性描...

2018-04-23 14:30:21 2033 1

原创百度百科基本信息栏数据爬取

一，代码实例# coding=utf-8import requestsfrom requests.exceptions import RequestExceptionimport reimport urllibimport pandas as pddef get_http(name): '''用于配置链接在爬取的过程中需要对head字典中配置进行适配器设置，其中信...

2018-04-19 10:07:01 1076

原创 mysql查询时取多条记录中最大时间的记录

在查询的过程中，有时库里单个用户的数据往往会存在很多条，当我们需要查询出用户的一条数据时（最大时间对应记录或最小时间对应记录）往往要写很复杂的子查询，而其实通过一个简单的方法就可以查询。就是使用concat函数，就可以非常简单的查询出相应的记录。SELECT uuid(), phone_no, date_timeFROM TABLEWHERE CONCAT(phon...

2018-04-19 09:30:29 20073

原创 spark通过Phoenix读取hbase数据

此篇文章主要介绍用spark如何读取hbase中的数据。 spark官方提供了用spark直接读取hbase的方法，但是直接读取hbase的数据类似于hbase shell中的scan方法全表扫描，当然如果知道rowkey当然就不会有什么问题，但是在真实的业务场景中onebyone通过rowkey去取hbase的数据是不现实的，这样也没用必要用spark去跑数据，因为发挥不出spark的性

2018-01-24 18:03:19 10355 1

原创 mysql查询时构建自增ID（自增序列）

在mysql、或hive中查询时需要自己构建一个自增序列时可参照以下语法：set @rownum=0;select @rownum:=@rownum+1 as id from dual;set @rownum=0;SELECT @rownum:=@rownum+1 AS rownumFROM dual limit 10;...

2018-01-24 16:34:32 6659 2

原创 hbase+python安装部署及操作

hbase+python安装部署及操作本文总结下最近在用python+spark+hbase安装操作中的一些问题。hbase安装hbase配置spark配置hbasehbase配置pythonhbase安装+hbase配置安装流程可借鉴此处，同理spark安装也可借鉴此处具体参考：http://dblab.xmu.edu.cn/blog/install-hbase/spark配置hba

2017-12-20 16:38:32 2610

转载 HUE--高可用Hadoop平台－Hue In Hadoop

1.概述　　前面一篇博客《高可用Hadoop平台－Ganglia安装部署》，为大家介绍了Ganglia在Hadoop中的集成，今天为大家介绍另一款工具——Hue，该工具功能比较丰富，下面是今天为大家分享的内容目录：Hue简述Hue In Hadoop截图预览　　本文所使用的环境是Apache Hadoop-2.6版本，下面开始今天的内容分享。2.Hue简述

2017-11-14 11:17:26 2986 1

原创安装xbgoost以及环境配置

相关连接【http://blog.csdn.net/u013738531/article/details/70299611】环境配置【http://blog.sina.com.cn/s/blog_879e0af70101ka9f.html】相信大家编译xgboost的c++文件会遇到很多的问题，在此我直接将 win7 64位的xgboost编译完成的包放在这里【点击打开链接】，大家可以自行...

2017-10-09 16:14:33 649

原创在导入sklearn包是报错

相信大家经常会遇到这种情况，在导入sklearn包时或者其他包时报错ImportError: cannot import name __check_build此种情况的原因一般为包之间不兼容的问题导致的相信大家在安装 numpy、pandas、matplotlib、scipy、scikit_learn等包是直接利用命令行的方式安装的例如：pip install 包名此种方式安装虽

2017-09-20 16:09:47 11999 1

原创关于api-ms-win-crt-runtime|1-1-0.dll缺失的解决方案

关于api-ms-win-crt-runtime|1-1-0.dll缺失的解决方案问题原因有时，我们在打开文件程序的时候经常出现一些关于以下的错误：无法启动此程序因为计算机中丢失api-ms-win-crt-runtime|1-1-0.dll的错误，此问题需要安装一个小程序，但是在安装的过程中会遇到很多的问题。问题截图：解决方法前期的解决办法可以参考以下链接，此为别人的解决方案。 ht

2017-09-20 14:18:18 62297

原创用python读取json格式内容并保存到excel中

python版本 python2.7所需安装库 xlwt# -*- coding: utf-8 -*import json,xlwt,osdef readjson(): path = 'C:/Users/lenovo/Desktop/xueli'#指定文件夹路径 files = os.listdir(path)#得到文件夹下的所有文件名称 s

2017-09-20 09:05:26 12663 1

原创 Python3.x中sklearn机器学习库中PCA参数问题

PCA为主成分分析库导入方式：from sklearn.decomposition import PCA其中默认有三个主要参数：n_components此参数可以帮我们指定希望PCA降维后的特征维度数目，可以是int型的数字123，也可以是阈值百分比，类似98%，也可以指定为string类型，MLEcopy类型：bool,True或者False，缺省时默认为

2017-08-09 16:34:49 6533 1

原创 python中函数式编程map、reduce、filter的用法

python中函数式编程map、reduce、filter的用法reduce函数map函数filter函数lambda函数综合函数式编程代码块代码块语法遵循标准pyhton代码，例如：from functools import reducefrom random import randintnumber = []for i in range(9): number.appen

2017-06-30 16:35:13 613

转载 python异常处理机制

1.try…excepts = 'Hello girl!' try: print s[100] except IndexError: print 'error...' print 'continue'程序执行到第2句时发现try语句，进入try语句块执行，发生异常，回到try语句层，寻找后面是否有except语句。找到except语句后，会调用这个自定义的异

2017-05-09 14:36:36 460

SQuirrel SQL Client配置hive驱动

社区发现算法copra+数据集

squirrel sql client数据库连接工具

垃圾短信过滤解决方案2

xgboost安装

空空如也