自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 机器学习笔记(二)常用分析工具

机器学习常用的不仅仅是各种模型,还有数据分析、数据处理和可视化等,python、R等语言也提供了很多有用的工具包。一、pandaspandas在数据分析中的作用无需多数。下文的pd表示pandas库,df表示实际中的DataFrame实例。1. df.pivotpivot是pandas中的数据透视表操作,实际上就是针对某列的行转列操作,参数如下:pivot(self, index=None, columns=None, values=None)index是重塑的新表的索引名称是什么

2020-07-31 18:34:21 570

原创 目标检测笔记(二)R-CNN网络和论文理解

一、简介R-CNN是基于region proposal方法的目标检测算法系列开山之作,由加州大学伯克利分校的RBG大神于2014年提出,其先进行区域搜索,然后再对候选区域进行分类。在R-CNN中,通过Selective search方法来生成候选区域,这是一种启发式搜索算法。它先通过简单的区域划分算法将图片划分成很多小区域,然后通过层级分组方法按照一定相似度合并它们,最后的剩下的就是候选区域(...

2020-07-14 11:28:55 898

原创 TensorFlow笔记(四)Word2Vector详解

word2vector是google提出的一种词嵌入算法,采用了两种模型(CBOW和Skip-Gram模型)与参考资料https://www.jianshu.com/p/1405932293eahttp://mccormickml.com/2018/06/15/applying-word2vec-to-recommenders-an...

2020-06-12 16:31:49 1384

原创 TensorFlow笔记(三)常用操作函数

基础操作函数tf.abs(x, name=None)计算张量的绝对值,输入一个Tensor 或 SparseTensor,返回一个与x 有相同的大小和类型 的Tensor 或 SparseTensor。tf.add(x, y, name=None)返回 x + y 值,x和y有相同类型。tf.acos(x, name=None) / tf.asin / tf.ata...

2020-04-17 15:47:08 768

原创 Neo4j笔记(五)APOC(1)数据导入导出

前言一直以来都想写一些关于Neo4j APOC工具包的使用笔记,不过一直比较忙,最近又需要用到里面的一些东西,决定开始关于APOC笔记的第一步。个人看来,掌握了apoc的使用,cypher水平至少可以提高一倍,开发效率也可以快很多(个人愚见)。下面的笔记都是以linux下的Neo4j 服务器版为准。官网地址:https://neo4j.com/docs/labs/apoc/current/...

2020-04-08 11:46:31 9722 2

原创 机器学习笔记(一)数据预处理

在机器学习建模中,因为大多数数据并不是格式化、规范化数据,不能直接输入到模型中,因此,第一步往往是根据数据分析结果对数据进行预处理,或者叫特征处理,常见的数据预处理过程包括:标准化、离散化、降维、数据抽样等。1. 数据标准化(1)最大最小值归一化最大最小值归一化和下面的正态标准化是最常用到的数据标准化方法,原理也比较简单,即直接根据比例把数据映射到[0,1]之间的某个数值,常用在最大、...

2020-04-01 13:46:58 785

原创 Hive小技巧和调优

作为Hadoop生态圈中的重要组件,Hive在数据分析、处理方面扮演着异常重要的角色。另外,Hive作为大数据组件,处理的数据量往往很大,合适的优化技巧在运行效率方面往往可以起到非常好的效果。1、筛选重复记录这是在业务中经常遇到的一个问题,主要场景往往是,同一条记录被多次插入,或者同一个id对应多条记录,但是只需要其中一条就足矣。(1)对于重复记录,如果是数据去重,自然是可以使用dis...

2020-03-26 15:49:48 1140

原创 vim高频命令

在Linux下处理文本,vim几乎是绕不过去的坎,而如果能够熟练掌握vim的使用,也一定可以起到事半功倍的效果,尤其是在处理大文件的情况下。本文只列出了笔者在实践中经常用到命令,同时也列出了部分非vim的Linux常用文本处理命令。另外,相对于vi,笔者也更喜欢vim。1、命令篇,即下面命令都是在非编辑模式下执行,在编辑模式下,按Esc键即可退出编辑模式,进入命令模式gg 跳转到首行...

2020-03-18 12:26:49 233

原创 TinkerPop集成Hadoop+Spark

前言前面介绍了TinkerPop集成Neo4j的配置方法,并且实现了HA操作。这里有一个突出问题就是不管是使用Neo4j,还是自带的TinkerGraph都不可避免的面临一个问题——大数据量场景,也即分布式问题。鉴于此,Tinkerpop还提供了和Hadoop+Spark的集成解决方案,从而解决单节点问题。但是由于Spark中的数据一致性问题,不能修改数据,所以这种方案不能修改数据,也不能新增...

2020-01-15 18:42:24 1211

原创 TinkerPop集成Neo4j

简介ThinkerPop是由Apache开发,面向实时事务处理(OLAP)以及批量、分析型(OLTP)的开源图计算框架。TinkerPop可以应用于不同图数据库的抽象层,避免应用程序与特定数据库高度依赖。Tinkerpop提供的通用API、Gremlin语言和工具,使开发人员可以基于不同图数据库轻松创建图形应用程序,使图数据库与图计算解耦,方便切换不同图形数据库,简化其工作。TinkerPop...

2020-01-06 20:24:29 2952

原创 物体分类(四)ResNet

前言ResNet(Residual Neural Network)由微软研究院的Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun四名华人提出,并在ILSVRC2015比赛中取得冠军,在top5上的错误率为3.57%,对应的论文《Deep Residual Learning for Image Recognition》更是 2016 CVPR 最佳论文...

2019-11-05 20:26:20 734

原创 物体分类(三)GoogLeNet

前言GoogLeNet是2014年ImageNet挑战赛(ILSVRC14)的冠军,将Top5的错误率降低到6.67%,是由谷歌(Google)研究出来的深度网络结构,为什么不叫GoogleNet,而叫GoogLeNet呢?据说是为了向“LeNet”致敬,因此取名为GoogLeNet。从LeNet到VGGNet,提升网络性能最直接的办法就是增加网络深度和宽度,深度指网络层次数量、宽度指神经元数...

2019-10-16 19:08:41 765

原创 python连接hive

前言之前在读hive数据的时候,经常使用读hdfs parquet文件的方法,虽然封装函数一样,调用起来也方便,但是总觉得不得劲,既然我需要的是hive数据,为何不直接读hive呢?刚好今天又遇到了这个问题,就花了两个小时,研究了不同的方法,mark一下,以便查阅。好了,进入正题,下面列出了两种方法,但大体上差不多,可根据需要选择。另外,还看到使用 impala 操作hive的方法,没有详细研...

2019-09-18 19:11:30 4070 1

原创 物体分类(二)VGGNet

前言VGG-Net是由牛津大学VGG(Visual Geometry Group)提出,是2014年ImageNet竞赛定位任务的第一名和分类任务的第二名的中的基础网络。VGG可以看成是加深版本的AlexNet,都是Convlayer + Pooling layer + FC layer,它主要的贡献是展示出网络的深度(depth)是算法优良性能的关键部分,并且小卷积核表现出了更好的效果。虽...

2019-09-16 10:29:06 559

原创 物体分类(一)AlexNet

一、前言AlexNet是大神Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton三人提出的AlexNet深度卷积神经网络,摘得了2010年ILSVRC比赛的桂冠。虽然第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet。二、LeNetLeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决...

2019-09-12 16:08:07 675

原创 TensorFlow笔记(二)理解RNN和LSTM

1、RNN在DNN和CNN中,训练样本的输入和输出往往都是确定的,并且对单个样本前后之间的关系不关心。这就导致DNN和CNN不好解决训练样本输入是连续的序列,且序列的长短不一,比如基于时间的序列:一段段连续的语音,一段段连续的文字。这些序列比较长,且长度不一,比较难拆分成一个个独立的样本来通过DNN/CNN进行训练,并且序列前后之间往往有很大的关系。而这正是RNN比较擅长的任务。先晒一张大家经...

2019-08-08 17:33:04 851 1

原创 TensorFlow笔记(一)tensorflow加载数据的三种方式

最近在看TF2.0的内容,顺便把以前的内容也做下笔记,以便查阅。所有程序在不注明的情况下,默认使用tensorflow1.14版本。数据加载是训练模型的第一步,合理的数据加载方式虽然不会对模型效果有促进作用,但是会大大加快训练过程。TensorFlow中常用的数据加载方式有四种:内存对象数据集,在学习阶段最常见的数据加载方式,在session中直接用字典变量feed_dict给变量喂数据,...

2019-07-18 19:42:49 2723

原创 Neo4j笔记(四)Neo4j Shell

虽然大多数时候,我们的操作都在Neo4j自带的BI界面完成。但是Neo4j同样提供了一个命令行工具,在跑批和系统集成的时候会经常用到。另外,在shell里面执行cypher会比BI效率高,缺点就是不能可视化,不过可以导出到本地。Neo4j的命令行工具是 cypher-shell ,在 NEO4J_HOME/bin 目录下。默认情况下可以直接通过 ./cypher-shell 输入用户名和密码后...

2019-05-28 14:46:42 3712

原创 Neo4j笔记(三)Neo4j批量导入数据

Neo4j批量导入提供了三个工具:load csv、neo4j-admin import、apoc。本文只介绍前两个方法,也是使用最多的方法,关于apoc的内容在后面介绍。load csv和neo4j-admin import的主要区别就是 load csv是在线导入方式,即Neo4j不需要停止运行,支持增量导入数据,本质是cypher语言;neo4j-admin import 导入数据必须是生成...

2019-05-24 19:14:10 9737

原创 Neo4j笔记(二)Cypher(9)cypher时间处理

1、datedate函数默认返回当前时区的当前日期,如:RETURN date() //结果:"2019-05-24" 。具体使用方法如下:date() //当前时区当前日期date({ timezone: 'America/Los Angeles' }) //指...

2019-05-24 16:05:55 2918

原创 Neo4j笔记(二)Cypher(8)函数

关于cypher中的函数有两点需要注意:(1)如果输入是null,则函数返回null。(2)字符串输入都是Unicode字符,而不是标准字符集,比如 size("你") 的结果是1。一、断言函数1、all语法:all(variable IN list WHERE predicate)返回:Boolean含义:list中的所有元素都满足where条件,则返回true,否则返回fal...

2019-04-28 19:51:15 2626

原创 Neo4j笔记(二)Cypher(7)UNION

UNION可以组合两个或者两个以上的查询结果到一个结果中,需要注意一下几点:(1)可以组合两个或者两个以上的查询结果。(2)UNION和UNION ALL的用户不同,尤其需要注意UNION的用法。(3)每个查询的结果列数和列名都必须相同。1、可以组合两个或者两个以上的查询结果unwind [1,2,3] as xreturn xunion allunwind [4,5,6] ...

2019-04-28 19:26:04 2263 1

原创 Neo4j笔记(二)Cypher(6)UNWIND和FOREACH

unwind是cypher提供的一种列表遍历工具,类似于python中的for循环,unwind结合case等语法可以写出许多复杂的查询,尤其是对于路径查询的处理。foreach也是cypher提供的一个列表遍历工具,但是主要用来做增删改。对于这两个的用法,建议结合列表推导一起学习。一、UNWIND官方文档对于UNWIND的说明:WithUNWIND, you can transform...

2019-04-28 12:54:15 14143

原创 卸载向导检测到sqlyog正在运行,请手动停止服务

今天因为临时用到mysql,准备装一个客户端,结果一不小心装了一个试用版。次奥,没关系,卸载重来,结果就杯具了,卸载不了,卸载的时候总是报上面的错误,即使重启还是不行。看了一下任务管理器里面的服务,也没看到有什么是和这个相关的服务,但是肯定有一个服务阻塞了卸载。百度也没找到相似的问题,总后在google上找到一种卸载方法,借鉴终于卸载了。原文地址点这里。通过这种方法,应该也可以卸载其他服务。既...

2019-04-24 13:59:40 1738 1

原创 Neo4j笔记(二)Cypher(5)聚合

Cypher的聚合和别的语言不一样,比如在SQL中聚合是通过group by实现的,而在cypher中是通过聚合函数默认聚合的。看一个例子:match(n:Person) return n.name, count(n.name)表面上看没有做任何聚合操作,实际上,因为使用了聚合函数count,因此会自动根据前面字段做聚合操作,上述语句的意思是统计每个名字的使用次数(使用相同名字的个数)。1...

2019-04-18 20:43:28 2740

原创 Neo4j笔记(二)Cypher(4)特殊查询

如题,本片主要介绍一些cypher的细节语法。1、省略关系match(n)-->(m) 两个 - 表示省略任意关系2、匹配多种关系类型match(n)->[:A|:B]->(m) 匹配A或者B类型的关系3、带有空格的关系match(n)-[`A B`]->(m) 使用反引号4、变长关系match(n)-[r:SHIP...

2019-04-18 19:26:45 6796 2

原创 tensorflow.python.framework.errors_impl.InvalidArgumentError: You must feed a value for placeholder

今天在测试一个模型的时候遇到了下面的问题,在网上没找到解决方法,说一下解决思路。tensorflow.python.framework.errors_impl.InvalidArgumentError: You must feed a value for placeholder tensor 'input_1_1' with dtype float and shape [?,224,224,3]...

2019-04-17 11:16:43 21229 6

原创 目标检测笔记(一)综述

一、什么是目标检测 顾名思义,即从一张图片中,检测出有哪些想要知道的物体,同时给出目标所在的位置信息。在深度学习图像处理研究方面,主要分为两类----分类和检测,当然也包括图像合成等其他方面。分类相对简单,通常一张输入图片对应于一个类。分类的特点就是输入场景单一,一张图片属于一个类别,在分类方面也有很多经典的网络,例如AlexNet、VggNet、ResNet等等,现在的准确率也是...

2019-04-11 12:00:05 408

原创 jmeter快速上手(四)压测自定义Java请求

jmeter不仅仅可以压测http、jdbc等常见应用场景,而且可以测试自定义的java请求。大多数情况下我们不会用到这种情况,但是有些情况下确实需要我们自己定义一个java请求取样器。例如我在使用服务器驱动连接Neo4j的时候,就需要自己定义这个操作。当然Neo4j也是支持jdbc的。下面以 Neo4j 的服务器驱动为例说明整个流程。1、配置在Java工程中添加JMETER_HOME/l...

2019-04-09 14:36:54 676

原创 jmeter快速上手(三)jdbc压测数据库

数据库压测,也是一个常见的测试任务,比如测试查询效率、插入效率、响应时间、(加解密)函数效率等。对于oracle、musql等数据库最常见的连接方式就是jdbc,接下来以oracle为例说明jmeter压测数据库的过程,附带部分mysql说明。因为前面已经详细介绍了jmeter的具体使用,所以,不熟悉jmeter和步进测试的同学,可以先看下前一篇文章。一、测试流程1、添加jar包将相应...

2019-04-04 09:58:55 2467

原创 jmeter快速上手(二)http步进压测

http压测是web工程里面最常见的压测,经常会测试TPS、响应时间、吞吐量等。一、基本测试1、打开jmeter,右击测试计划,点击添加-->线程-->线程组。弹出页面如下:各参数解释如下:(1) 线程数:虚拟用户数,起多少个线程。(2)Ramp-Up Period(秒):设置的虚拟用户数需要多长时间全部启动。如果线程数为10,准备时长为2,那么需要2秒钟启动1...

2019-04-03 16:56:14 1998

原创 jmeter快速上手(一)安装配置

define:本系列文章会有四篇,主要介绍安装配置、步进压测http请求TPS、jdbc压测数据库、压测自定义Java请求,这四部分应该可以涵盖大部分应用场景。另外,本人不是专业的测试人员,之前也从未使用jmeter,只是因为临时遇到了一个测试任务,所以快速了解了一下。本系列文章不适用于系统学习jmeter,主要用于非测试人员或者新人快速完成测试任务。一、安装1、安装jdk关于怎么安装j...

2019-04-02 15:00:17 567

原创 Neo4j笔记(二)Cypher(3)NULL

Cypher中的NULL和SQL中的NULL有一些不同,SQL中的NULL表示这个字段没有值,在建表的时候可以添加非控约束,而Cypher中的null表示某个节点没有这个这段属性。一个表示这个字段没有值,一个表示没有这个字段。Cypher中可以使用 is null 判断某个节点是否有某个字段属性。null不同于其他类型值,不能直接使用 = 判断某个字段是否为null,同时 null = nul...

2019-03-29 11:07:41 1751

原创 Neo4j笔记(二)Cypher(2)列表

Cypher支持列表操作,并且和Python中的列表很相似。使用[],可以直接手动创建列表,例如:RETURN [1,2,3]。Cypher内置的range函数可以直接返回一个列表,用法和Python中的range也几乎一样。需要注意的是Cypher中的列表和Python一样,可以包含不同类型的元素,如 RETURN [[1, 2], 3, 1, 5.2, "sss"] 。1、range定...

2019-03-28 11:24:58 1778

原创 Neo4j笔记(二)Cypher(1)case语句

Cypher支持case条件表达式,它的逻辑类似于C语言中的if/else语句。一个CASE语句包含一个或多个WHEN-THEN子句,每个子句都是一个表达式。 case语句也可以包含一个ELSE子句,当之前的条件都不为真时,则执行该ELSE子语句,类似于C语言中的default。CASE语句有两种语法:其中的一种语法等效于if-else语句,而另一种则类似于SWITCH语句。对于等效于IF-E...

2019-03-27 09:23:46 3967

原创 python离线安装库

在内网环境搭建开发环境,是经常遇到的一个问题。之前写过一篇搭建Anaconda本地私服的文章,比较适合多台机器资源共享的情况,好处是一次工作,多次使用。但也有只是临时安装某台机器的情况,本文介绍如何在离线情况下快速安装py库的两种方法。虽然是离线安装,但是也至少要有一台可以访问外网的机器,并且这台机器上也有和目标机器相同的python环境(虚拟环境也可)。一、pip这是大多数人最习惯用的方...

2019-03-08 14:12:02 7969

原创 Neo.ClientError.Statement.TypeError: Expected Long(0) to be a org.neo4j.values.storable.TextValue

LOAD CSV WITH HEADERS FROM 'https://neo4j.com/docs/cypher-manual/3.5/csv/artists-with-headers.csv' AS lineCREATE (:Artist { name: line[0], year: toInteger(line[1])})我们在使用上面load csv命令导入数据的时候,可能会遇到下...

2019-03-06 19:37:21 3851

原创 Neo4j笔记(一)算法(2)算法实例

一、中心度算法1、PageRank1.1 算法介绍PageRank最初是谷歌推出用来计算网页排名的,简单的说就是,指向这个网页的链接数越多,那么这个网页就越重要。但是很可能会有人自己制作一些垃圾网页设置大量的链接指向自己的网页来提高网页排名,这肯定是谷歌不希望看到的。因此PageRank还有一个迭代计算的过程,一个网页A虽然有大量的垃圾网页指向自己,但是这些垃圾网页是没有被指向的,因...

2019-02-25 18:02:30 5764 8

原创 Neo4j笔记(一)算法(1)配置

Neo4j提供了两个常用的算法库-----apoc和algo,相对于algo,apoc不仅仅提供了一些算法实现,还提供了数据导入等功能,更多地像一个工具包。而在算法实现方面,algo显得更专业、全面。本文主要介绍algo库的使用,后续再记录apoc的使用。algo的详细使用文档,请点击这里。另外所有关于Neo4j的操作都是基于Linux系统。简介图算法用于计算图形,节点或关系的度量,Neo...

2019-02-25 10:49:52 4505 6

原创 firewalld常用命令

firewalld是centos7中的防火墙命令,对于部分参数偶尔还是记不清楚,做个笔记,以便查阅。当然对于习惯使用iptables的同学来说,也可以在centos7中安装iptables服务,不过个人还是建议使用firewalld,对于新的东西,还是要积极接纳,或许后续的操作系统就不支持iptables了(小提示:iptables命令有两个,iptables和ip6tables。见名知义,就不过...

2019-02-18 15:45:38 2824

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除