Gedeon-CSDN博客

原创书籍资料库

本人整理的大量各种格式的书籍Python《Python语言及其应用》《Python网络数据采集》《Python网络编程攻略》《Python数据挖掘入门与实践》《Python数据科学手册》《Python数据分析基础教程：NumPy学习指南第二版》《Python数据分析基础》《Python数据处理》《Python深度学习》《Python计算机视觉编程》《Python基础教程第三版》《Python机器学习实践指南》《Python机器学习经典实例》《Python机器学习基础教程》《P

2021-03-24 16:44:43 252

原创 1、airflow的安装

Airflow1. Python3的安装1.1 下载包1.2 安装依赖1.3 编译1.4 添加环境变量2. 安装Mysql2.1 配置my.cnf2.2 创建数据库3. 配置airflow3.1 安装包3.2 修改配置文件3.3 创建用户4.错误处理1. Python3的安装1.1 下载包wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgztar -zxvf Python-3.6.5.tgzcd Python-3.6.5mkd

2021-01-15 17:55:33 3522 1

原创 Flume上传图片到S3

目录需求分析Flume配置报错处理需求分析根据游戏部门的需求，他们需要会将论坛图片存储到本地目录，然后需要将这些图片实时上传到S3上并做CDN映射。图片格式为jpg或者jpeg格式。在将文件存储到S3时要按照天为目录，并保留原文件名。Flume配置配置文件名为 game.imp.conf配置内容如下 # Name the components on this agent game.sources = r1 game.sinks = k1 game.channels = c1 gam

2021-01-11 17:57:45 543

原创 10.ES搜索

一：基于词项和基于全文的搜索1.1 基于Term的查询Term 是表达语意的最小单位。搜索和利用统计语言模型进行自然语言处理都需要处理Term。特点Term Query/ Range Query/ Exists Query/Prefix Query/Wildcard Query在ES中，Term查询，对输入不做分词。会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算...

2019-10-17 11:46:13 357

原创 9.聚合与第一部分总结

1. 什么是聚合（Aggregation）1.1 集合的分类Bucket Aggregation ：一些列满足特定条件的文档的集合Metric Aggregation ：一些数学运算，可以对文档字段进行统计分析Pipeline Aggregation ：对其他的聚合结果进行二次聚合Matrix Aggregration : 支持对多个字段的操作并提供一个结果矩阵1.2 Bucke...

2019-07-26 15:21:54 266

原创 8.多字段特性&Analyzer&Template

1.多字段特性多字段特性厂商名字实现精准匹配增加一个keyword字段使用不同的analyzer不同语言pinyin字段的搜索还支持为搜索和索引指定不同的analyzer1.1 Exact Values v.s Full TextExact Value:包括数字/日期/具体一个字符串 Elasticsearch 中的keywordFull Text（全...

2019-07-26 14:09:39 345

原创 7.Mapping详解

1.什么是Mapping1.Mapping 类似数据库中的schema的定义，作用如下定义索引中的字段的名称定义字段的数据类型，例如字符串，数字，布尔…字段，倒排索引的相关配置（Analyzed or Not Analyzed,Analyzer)2.Mapping会把JSON文档映射成Lucene所需要的扁平格式3.一个Mapping属于一个索引的Type每个文档都属于一个Ty...

2019-07-25 16:15:21 12224

原创 6.Request Query 详解

1. Request Body Search将查询语句通过HTTP Request Body 发送给Elasticsearch1.1 404_idx//ignore_unavailable=true，可以忽略尝试访问不存在的索引“404_idx”导致的报错POST /test,404_idx/_search?ignore_unavailable=true{ "profile": ...

2019-07-25 14:07:54 5088

原创 5.Search详解

1.Search APIURL Search在URL 中使用查询参数Request Body Search使用Elasticsearch 提供的，基于JSON 格式的更加完备的Query Domain Specific Language (DSL)1.1 指定查询的索引语法范围/_search集群上所有的索引index1/_searchin...

2019-07-24 20:28:40 829

原创 4.通过Analyzer进行分词

1. Analysis与AnalyzerAnalysis : 文本分析是吧全文本转换成一系列单词（term/token)的过程，也叫分词Analysis : 是通过Analyzer来实现的可使用Elasticsearch内置的分析器/或者按需定制化分析器除了在数据写入时转换词条，匹配Query语句时候也需要用相同的分析器对查询语句进行分析2. Analyzer 的组成分词器...

2019-07-24 17:13:56 1386

原创 3.文档的基本CRUD与批量操作

1.文档的CRUDType名，约定都用_docCreate 如果ID已经存在，会失败Index 如果ID不存在，创建新的文档，否则，先删除现有的文档，再创建新的文档，版本会增加Update 文档必须已经存在，更新只会对相应字段做增量修改1.1 CREATE 一个文档支持自动生成文档ID 和指定文档ID 两种方式自动生成文档ID通过调用”post /users/_doc...

2019-07-24 15:04:04 472

原创 2.Elasticsearch基本概念

1 概述2.文档（document）Elasticsearch是面向文档的，文档是所有可搜索数据的最小单元日志文件中的日志项一本电影的具体信息/一张唱片的详细信息MP3播放器里的一首歌/一片PDF文档中的具体内容文档会被序列化成JSON格式，保存在Elasticsearch中JSON对象由字段组成每个字段都有对应的字段类型（字符串、数值、布尔、日期、二进制、范围类型）...

2019-07-23 16:48:37 374

原创 1.Elasticsearch概述及其发展

1.Elasticsearch简介基于Lucene 的分布式、高性能、高可用、可伸缩的搜索和分析系统1.1特点Elasticsearch起源于Lucene.自动维护数据的分布到多个节点的索引建立，还有搜索请求分布到多个节点执行自动维护数据的冗余副本封装了更多高级的功能，复杂的搜索功能，聚合分析的功能，基于地理位置的搜索1.1.1 Lucene的特点基于Java语言开发...

2019-07-23 13:13:34 503 1

原创 python + impyla + hive2

背景最近工作需要python连接hive,就查了一些资料。发现现在已经开发好的模块有 pyhs2 一般用户python 2 因此我选择了 impyla 使用过程中遇到的坑不要太多。过程首先粘过来一些安装过程，就是一些依赖模块,我用的是py 3.61、pip install six2、pip install bit_array3、pip install t...

2018-06-06 15:38:19 4818

原创 python与微信的那点事

前言最近想学python,因此就在网上找了点关于python有趣的例子来学学，本文的代码很多都是copy，我只是想总结一下 ^-^以下展示一个用户日志的json格式数据[{'UserName': '@8fdbd07d46ecc1f46891684b46281227488b5b7d4459a156ac84b7beda00a603','City': '','DisplayN...

2018-05-25 11:37:52 4600 2

原创 1、python（机器学习）收藏的链接

1、我们从250个机器学习开源项目中挑出了Top 10，Github平均star979 2、从15000个Python开源项目中精选的Top30，Github平均star为3707，赶紧收藏！3、资源 | 我们从8800个机器学习开源项目中精选出Top30，推荐给你4、我们从1400篇机器学习文章中挑出了Top 10 5、资源 | 5月Python好文T...

2018-05-24 17:36:07 597

原创 3、基于物品的协同过滤算法

一.背景及优点随着网站的用户数目越来越大，计算用户兴趣相似度矩阵越来越困难，其运算时间复杂度和空间时间复杂度的增长和用户数的增长近似于平方关系。其次，基于用户的协同过滤算法很难对推荐结果作出解释。因此产生了基于物品的协同过滤算法（ItemCF)。ItemCF算法并不利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度。 ItemCF可以利用用户的行为给推...

2018-05-24 17:09:07 7478 2

原创 2、基于用户的协同过滤算法

一：用户行为数据简介用户行为数据在网站上最简单的存在形式就是日志。用户行为在个性化推荐系统中一般分为两种———显性反馈行为和隐形反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为。比如评分5分或者点击喜欢。隐性反馈行为主要最具代表性的就是页面浏览行为。二：用户行为分析2.1用户活跃度和物品流行度的分布互联网上的很多数据分布都满足长尾分布很多研究员...

2018-05-22 16:30:23 34157 6

原创 1、好的推荐系统

一：推荐系统的目的：要发掘长尾提高销售额，就必须充分研究用户的兴趣，而这正是个性化推荐主要解决的问题。推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾商品准确地推荐给需要它的用户，帮助用户发现那些他们感兴趣但是又很难发现的商品二：推荐系统的应用：个性化推荐系统需要依赖用户的行为数据，总体来说，几乎所有的推荐系统应用都是由前台的展示页面，后台的日志系统以及推荐算...

2018-05-22 16:07:53 1329

原创 Idea错误解决

背景周末过来以后，IDEA莫名一直indexing，然后快要结束的时候会秒退。找不到问题，然后只能重装idea.但是在重装的时候发生了一系列问题。环境java: 1.8"1.8.0_172"scala: "2.11.8"idea:"2016.2.5"scala 插件：2016.2.1 一般来说，scala插件在idea上一般下载不成功，所以可以在这里来下载插件，然后外部来导入。错

2018-04-24 14:44:09 609

原创 Spark2与Oozie整合

项目背景公司部门成立初期，现在业务是由Shell脚本编写然后定时进行运行。由于现在公司一般都是搭建的CDH，内置有Oozie。且Oozie操作简单，功能强大，并且有很好的图形化界面所以还是想要搞一下。在搞的过程中出现了一堆问题，就是spark2与Oozie的整合现在不是很成熟，网上资料也很少，基本是淌着过去的。。。运行环境CDH:CDH-5.13.2-1.cdh5.13.2.Ja...

2018-04-20 13:58:10 8478 5

转载 4、番外（何为信息熵）

本文转自知乎问题名称信息熵是什么？作者：知乎用户链接：https://www.zhihu.com/question/22178202/answer/49929786 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。让我们说人话！好的数学概念都应该是通俗易懂的。信息熵，信息熵，怎么看怎么觉得这个“熵”字不顺眼，那就先不看。我们起码知道这个概念跟信息有关系

2018-04-13 10:45:23 205

原创 3、k-近邻之识别手写算法

需求分析我们使用k-近邻分类器来构造手写识别系统，下面是要识别的图像格式，尽管采用文本格式存储图像不能有效的利用内存空间，但是为了方便，我们还是将图像转换为文本格式。以下图片肉眼观察大概是3准备数据本系列所有的代码和试验数据都可以在这里找到。代码详解from numpy import *import operatorfrom os import listdirimport timed

2018-04-12 16:47:01 229

原创 2、K-近邻算法之约会网站预测

k-近邻算法概述定义：简单地说，k近邻算法采用测量不同特征值之间的距离进行分类原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系，输入没有标签的新数据后，将新数据的特征与样本集中数据对应的特征进行比较，然后计算出算法提取样本集中特征最相似数据的分类标签算法小解如上图，已知六部电影，他们分别有自己的数据与标

2018-04-12 13:59:21 884

原创 1、何谓机器学习

何为机器学习简单的来说，机器学习就是把无序的数据转换成有用的信息机器学习横跨多个领域，可以这样说，机器学习对于任何需要解释并操作数据的领域都大有裨益。训练集：是用来训练机器学习算法的数据样本集合，表1-1是包含6个训练样本的训练集特征/属性：特征或属性通常是训练样本集的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练集目标变量：目标变量是机器学习算法的...

2018-04-11 19:26:36 266

原创 Echarts折柱图异步加载

Echarts 折柱混合异步加载近期要做毕设，题目是基于微博平台的实时处理，因为题目太大，一时也想不到好的方案，因此就想添加几个Echarts图来表现实时性。Echarts 官网实例折柱混合mysql库以下是建表语句和模拟数据，用于异步加载。用户名称用户关注数用户粉丝数用户发表微博数日期 Gedeon 233 3223 23 2017-03-01

2017-03-09 21:11:56 799

转载数据结构入门（五）-队列的定义与实现

队列的定义队列（queue)是只允许在一端进行插入操作，而在另一端进行删除操作的线性表。队列是一种先进先出（First In First Out)的线性表，简称FIFO。允许插入的一端称为队尾，允许删除的一端叫做队头。队列的抽象数据类型C语言中的定义InitQuene(*Q):初始化操作，建立一个空队列QDestroyQueue(*Q):若队列Q存在，则销毁它。ClearQueue

2017-02-10 12:59:13 1939

原创数据结构入门（四）-栈的定义与实现

1.栈的定义栈(stack)是限定仅在标尾进行插入和删除操作的线性表。我们把允许插入和删除的一端称为栈顶，另一端称为栈底，不含任何数据元素的栈称为空栈。栈又称为后进后出（Last In First Out)的线性表简称==LIFO==结构很多软件比如 Word,Photoshop等文档或图像编辑软件中都有撤销（undo)的操作，也就是用栈的方式来实现的。栈的插入操作，叫做进栈，也

2017-02-10 12:57:25 7797 2

原创 Window下Intellij Idea本地hadoop运行环境

资源准备下载代码资源包下在hadoop-2.6.0安装包，可以去官网下载下载winutils等文件bin目录下载地址等级太低上传不了完整版，就只上传了bin 目录，下载好 hadoop-2.6.0之后将下载的bin目录替换。配置环境变量在windows下配置hadoop-2.6.0的环境变量。 HADOOP_HOME=D:/hadoop-2.6.0 path =

2016-12-08 17:31:38 8922

转载 DirectX修复windows下.exe文件启动失败。

转载自http://blog.csdn.net/vbcom/article/details/7245186DirectX修复工具最新版：DirectX Repair V3.5 增强版 NEW!版本号：V3.5.0.37433大小: 102MB/7z格式压缩，184MB/zip格式压缩，311MB/解压后其他版本：标准版在线修复版MD5校验码：DirectX R

2016-12-08 16:41:35 5168

转载 Git 教程

目录目录Git与SVN的区别Git配置Git工作流程Git 工作区暂存区和版本库基本概念创建仓库git init使用方法git cloneGit 基本操作获取与创建项目命令基本快照Git 分支管理列出分支删除分支分支合并合并冲突查看提交历史Git 标签添加远程库查看当前数据库提取远程仓库推送到远程仓库删除远程仓库Git与SVN的区别GIT不仅仅是个版本

2016-12-04 19:01:24 1159 1

原创 CDH安装错误集锦

CDH安装过程中出现的错误1、iptables: /sbin/iptables 不存在我是因为误删将 /sbin/下的文件删除了。解决方法： yum install iptables2、com.mysql.jdbc.execptions.jdbc4.CommunicationsException:Communication link failure 连接MySQL 的驱动包找不到

2016-12-04 13:36:41 8276 2

原创离线安装CDH

离线安装Cloudera Manager 5和CDH关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境. Cloudera Manager则是为

2016-12-03 13:59:44 2436

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键就是这么厉害 - 加粗 Ctrl + B - 斜体 Ctrl +

2016-12-01 21:07:40 271

原创 HBase API的简单使用（三）

JAVA API HBase数据存储管理相关的内容，其涉及的主要类包括：HBaseAdmin,HBaseConfiguration,HTable,HTableDescriptor,HColumnDescriptor,Put,Get和Scanner.import java.io.IOException;import java.util.ArrayList;import java.ut

2016-11-19 16:16:38 709

原创 HBase表结构和shell操作（二）

HBase表结构Hbase最基本的单位是列（column)。一列或多列形成一行（row），并由唯一的行键（row key)来确定存储。反过来说，一个表（table）中有若干行，其中每列可能有多个版本，在每一个单元格（cell）中存储了不同的值Hbase表结构：建表时，不需要限定表中的字段，只需要指定若干个列族。插入数据时，列族中可以存储任意多个列（以kv对的形式存储，列名-列

2016-11-19 14:39:23 42145

原创 HBase基本概念（一）

HBase的基本定义HBase是Apache Hadoop中的一个子项目，HBase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用Hadoop的dfs工具就可以看到这些数据。存储文件夹的结构，还可以通过Map/Reduce的框架（算法）对HBase进行操作。HB使用场景HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据

2016-11-19 13:59:34 3005

转载 Flume基本配置

这种模式，有两种方式，一种是用来复制（Replication），另一种是用来分流（Multiplexing）。Replication方式，可以将最前端的数据源复制多份，分别传递到多个channel中，每个channel接收到的数据都是相同的。配置格式示例如下：# List the sources, sinks and channels for the agentAgent>.sour

2016-11-18 14:00:07 2852

原创 Flume的基本概念

一：Flume介绍1.1、在hadoop生态圈中，Flume的位置。1.2、Flume是什么？有Cloudera公司开源分布式、可靠、高可用的海量日志采集系统数据源可定制，可扩展。数据存储系统可定制，可扩展。中间件：屏蔽了数据源和数据存储系统的异构性。1.3、Flume的两个版本？ Flume OG

2016-11-18 13:54:53 4901

原创 hadoop-之二次排序&分组&分区

需求背景MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，本文将通过两个个实际的MapReduce二次排序例子，讲述二次排序的实现和其MapReduce的整个处理流程，并且通过结果和map、reduce端的日志来验证所描述的处理流程的

2016-10-15 17:11:29 3687 2

hadoop-2.6.0.bin

空空如也