自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

为援不可图

一个喜欢将技术应用于实际中的程序猿,喜欢搞算法、前后端交互,也希望自己的小经验能够帮助到大家。欢迎大家来踩我的网站:www.cpiss.net

  • 博客(92)
  • 资源 (8)
  • 收藏
  • 关注

原创 GCN-图卷积模型理解

论文提出了一种可以在图结构中进行有效特征抽取的架构,这是和我们认为的卷积神经网络所处理的图片问题不同,图往往是非结构数据,呈散发或者聚合的样子,因此,很难通过普通的卷积网络来进行特征抽取。

2022-09-08 16:43:51 1469 1

原创 GraphSAGE-Inductive Representation Learning on Large Graphs

在当前节点中的邻居节点中,随机抽取N个节点(有放回),通过将这N个节点的特征进行聚合操作,来生成当前节点的表征。

2022-09-07 17:05:49 741

原创 GAT-图注意力模型

在直推式模型如GCN中,使用拉普拉斯矩阵来获取顶点特征,但是,拉普拉斯矩阵存在着一些问题,在运算的时候,需要把整个图所有节点都放进模型中,这就导致无法预测新节点。而GAT采用Attention架构,只负责将该节点的邻居节点进行计算,也就是只计算子图的一部分,这样,就可以避免全图计算。

2022-09-06 17:12:51 3875 3

原创 在PyG上构建自己的数据集

本部分用到的也是Cora数据集,但是不是官方版本的数据集,而是非常平易近人的风格,拿来就可以使用。

2022-09-02 15:56:17 4739 7

原创 SynchroTrap:基于相似度的异常检测算法

顾名思义,SynchroTrap即在同步情况下的欺诈。黑产通过控制大量的账号,需要在有限的时间里获取最大的利益,那不可避免的就会产生多个黑产账号在某段时间内发生重合行为的现象。

2022-09-02 14:49:50 617 1

原创 标签传播算法(LPA)

标签传播算法(Label Propagation Algorithm,LPA),是一种基于标签传播的局部社区划分算法。LPA将Grpah中的每个节点打上唯一的标签,通过随机选择一个node作为起始节点,根据其相连节点的标签改变自己的标签,以此来对整个图进行遍历,每一次迭代,图局部标签进行更新,从而达到整个Graph的标签确定。

2022-09-01 19:42:47 2989

原创 Ubuntu系统下Flask+Nginx+uwsgi搭建网站

1、序言Hello,大家好,小编好久不更新了,原因很多,我只取一个,因为没得写。谨以此片(篇),纪念我的第二次搭建网站之旅。2、配置Nginx敲下如下命令:先更新一下包,免得报错sudo apt-get update然后,安装Nginxsudo apt-get install nginx配置nginx信息,新建flask_nginx.conf文本,写入以下信息:server { listen 80;#监听端口 server_name www.cpiss.net;#自己的域名,如

2021-08-02 15:47:11 616 1

原创 Python pyecharts创建词云图

文章目录简介制作flask展示html格式js代码Python代码js版本结语简介词云图,通过对文章中的词语统计词频,可以直接反应某个词在文章中的重要性以及出现次数比。制作怎么制作词云图呢?Python已经给我们提供了一个完整的库,名为pyecharts,看名字就知道,这个库是专门为python定制的,里面包含了当下主流的一些图,例如:柱状图、饼图、折线图等,大家可以看一下官网https://pyecharts.org/。下面来看一下代码:import pyecharts.options as o

2021-03-09 16:38:19 2227 2

原创 python 使用代理ip爬虫

Python 使用代理ip爬虫爬虫定义代理ip为什么要用代理ip代理ip来源如何代理简单吗结束爬虫定义网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 百度百科爬虫.代理ip为什么要用代理ip随着信息的越来越庞大,获取数据的途径也不断增多,各个渠道都不会让使用者轻易的采集到本网的信息,而通过ip访问的频率可以对该ip进行判断,是否属于脚本机器在用,

2021-02-25 11:34:16 40351 2

原创 opencv根据坐标选取图片区域

背景小编最近在接触处理图像的东西,因为研究生搞得是nlp,对于图像处理并不是太在行,但是,在研究生的时候,帮助过其他实验室的处理过部分图像问题,因此,知道还有一个叫opencv的东西,现在用起来,不可谓之不强大。接下来,我带领大家感受一下opencv的魅力所在。需求这个需求是这样的,需要通过计算机读取一张图片,然后,在图片上画出需要的图像轨迹,将这个图像抠下来进行后续处理。过程首先,百度(惊不惊喜,意不意外);第二,我百度了一波之后,发现并没有我需要的功能,然后自己去啃了opencv;第三,

2020-11-02 15:40:58 2148 1

原创 计算机专业要不要读研?

最近在博客上看到有许多的文章,在讨论计算机学生要不要读研、计算机专业读研的优势在哪里等等这一类的文章,我作为一名计算机系的研究生,其实还是有些许感慨的,看到这类文章不知道大家心中作何感想,反正我心里是很难堪的,现在的形势风云变化,谁能知道读研到底有没有用呢,那么我想来说说自己的观点,希望大家不要介怀。 首先呢,从我自身的考研的角度来说。其实,我觉得考研还是有用的,对于一些高考失利的学生来说,...

2020-08-07 17:16:41 30443 13

原创 研究生要不要出去实习

自从5月1日开始,我便在北京的一个公司进行实习,不知道像我这样的有没有同样的经历,我想谈一谈研究生到底要不要出来实习。 很多人说研究生分为两种,一种是学硕,专搞学术;另一种是专硕,专搞工程。这种说法其实在某种程度上我不太苟同,搞学术要有基础的操作手段来进行学术研究支持,搞工程要有高领域的论文来进行佐证。因此,大部分学校可能会要求研究生在校期间要进行为期半年到一年的实习阶段,那么在这个阶段我们...

2020-08-07 17:16:28 25954 1

原创 Exception in thread “main“ java.lang.IllegalArgumentException: http://www.dmg.org/PMML-4_4

错误来源请看自己的PMML文件,图中红线部分PMML-4_4既为错误来源,请降低你的Python训练版本正常的信息如下图所示原因jar包和PMML文件版本不相符,jar包版本过低不能解析PMML文件,但不要想着升级jar包去解析PMML文件,表示很难,只有降低PMML版本匹配jar包才算安全(此乃深坑[神坑])。...

2020-07-23 17:09:36 1522 2

原创 Java调用PMML模型

生成PMML模型具体见我的上一篇博客Python XGBoost保存模型PMMLJava调用PMML模型Java基本的运行环境就不说了,大家如果能看到这篇文章,基本上就都掌握了Java运行环境。首先maven导入需要的jar包 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId>

2020-07-23 17:02:22 5511

原创 Python XGBoost保存模型PMML

PMML简介PMML全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型。PMML是一种跨平台调用模型,加入使用Python训练好一个机器学习模型后,保存为pkl模型,那么在java上不是能进行使用的,这时就需要将模型转为PMML,这也是其有效之处。优点1、PMML模型可以跨平台调用,既可以在java环境运行,也可Python环境运行(Python调用的话为什么不用pkl更直接呢)2、支持更多开源语言缺点1、Python调用P

2020-07-23 16:54:57 4950

原创 mac上AnyProxy安装与使用

简介AnyProxy是阿里开源的一个抓包工具,其原理与fiddler、charles一样,其本质功能都相同。大家如果用过charles的话,会发现AnyProxy的界面更加简洁,操作更加方便。这个是安装好的AnyProxy界面,整体有五大部分:1、Stop:停止抓包作业;2、Clear:清楚当前所有的内容;3、Filter:匹配所需要展示的内容;4、RootCA:下载信任证书;5、就是内容最大的一块,可以抓取包的具体信息。原理其原理与大多数的抓包工具相同,分为一下几个步骤:1、客户端发

2020-06-29 15:21:09 4249 1

原创 python实现Simhash处理大规模文本相似度

Simhash简介:Simhash–顾名思义,通过hash值比较相似度,通过两个字符串得出来的hash值,进行异或操作,然后得到相差的个数,数字越大则差异越大。Simhash流程:计算文本hash值的步骤:1、用分词工具(jieba、NLPIR、哈工大分词器等)对字符串进行分词,英文除外;seg = jieba.cut(str)2、分词后筛选关键词,计算关键词的权重;keyword = jieba.analyse.extract_tags('|'.join(seg), topK=20, wi

2020-06-19 15:21:22 3138 3

原创 训练K-Means与DBSCAN算法模型

在copy代码之前,先来对k-means和dbscan算法进行简单的了解一下吧。k-means介绍K-means聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。核心思想K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距

2020-05-29 14:57:58 1007

原创 INSERT OVERWRITE LOCAL DIRECTORY

最近在hive操作导数据时,碰到了一些问题,主要是通过INSERT OVERWRITE LOCAL DIRECTORY来进行数据的导出操作,现在主要说一下需要注意的事项:INSERT OVERWRITE LOCAL DIRECTORY ‘路径’ select * from datas;该语句是将datas中的数据导出到本地的路径中。INSERT OVERWRITE LOCAL DIRECTO...

2020-04-15 16:13:45 7741 3

原创 FAILED: Parse Error: line 1:55 cannot recognize input near 'row' 'format' 'delimited' in select clau

今天在操作hive查询语句的时候,出现了这个错误:FAILED: Parse Error: line 1:55 cannot recognize input near ‘row’ ‘format’ ‘delimited’ in select clause,感觉很悲伤,以前的语句是没有问题的,现在主要写一下解决问题的思路:1、仔细检查语句,仔细检查语句,仔细检查语句(重要的话说三遍,以前可以用的,...

2020-04-09 16:19:27 1740

原创 推荐系统之UserCF算法

基于用户的协同过滤算法算法概念:UserCF算法是推荐系统中协同过滤算法中的一种,称为基于用户的协同过滤算法。该算法通过用户A的兴趣,找到兴趣相同的其他用户,将其他用户喜欢而用户A没有的物品进行推荐。算法步骤:找到和目标用户兴趣相似的用户集合;找到这个集合中用户喜欢的,且目标用户没有的物品推荐给用户。算法缺点:在该算法应用的场景中,用户的数目越大,计算用户相似度矩阵越难,其困难度...

2020-01-23 11:11:37 1178

原创 ServiceUnavailable: WebSocket connection failure. Due to security constraint

出现这个问题的环境如下:在linux部署neo4j;vim /conf/neo4j.conf修改以下配置项#dbms.directories.import=importdbms.memory.heap.initial_size=5gdbms.memory.heap.max_size=10gdbms.memory.pagecache.size=10gdbms.connectors....

2019-06-21 11:18:02 9292 6

原创 Python解析xml找出同目录标签

什么是 XML?XML 指可扩展标记语言(eXtensible Markup Language)。 你可以通过本站学习 XML 教程XML 被设计用来传输和存储数据。XML 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。Python 对 XML 的解析常见的 XML ...

2019-06-20 16:21:37 1801

原创 知识图谱-Neo4j图形知识库

图形数据库(Graph Database)是NoSQL数据库家族中特殊的存在,用于存储丰富的关系数据,Neo4j 是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每个节点和关系都可以由一个或多个属性。Neo4j创建的图是用顶点和...

2019-04-02 14:42:05 953 1

原创 问答系统对问题分类

通过对问答系统的问题进行分类,可以使我们更加清楚问题的类别,以便更加容易针对某种问题的类型进行建模。我把问题分为6类,其中为“5W”,即where、when、who、why、what及other。# encoding=utf-8import xlrdimport xlwtdef writeexcel(what,where,when,who,why,tu): excelTabe...

2019-01-10 13:58:04 2921

原创 mysql防止插入重复数据

我们对mysql插入数据分为两种情况:一、以主键为区别字段,主键不能重复方案一:insert ignore into table_name(email,phone,user_id) values('test9@163.com','99999','9999')其中table_name为数据库名称;email,phone,user_id为字段名;‘test9@163.com’,‘9999...

2018-12-27 15:59:47 692

原创 java使用log4j输入到指定文件中

今天遇到了一个新问题,在java程序中,写入一个抛出异常的语句,当有错误的时候,系统会把错误输出到控制台,那么我们怎么把控制台上的错误信息当做日志输出到我们特定的日志当中呢。这个问题需要借助log4j神器,我们在程序中导入以下两个包:http://120.52.51.14/repo.spring.io/plugins-release/apache-log4j/log4j/1.2.14/log4...

2018-12-26 16:17:08 1123

原创 最短编辑距离

概念:字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:⋅\cdot⋅ 删除字符⋅\cdot⋅ 添加字符⋅\cdot⋅ 修改字符一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0。...

2018-12-25 13:55:47 473

转载 TF-IDF关键词提取算法

参考书目:python自然语言处理实战——核心技术与算法TF/IDF基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力。因此中和这两个数,就能较好地算出文档的关键词。关...

2018-11-20 15:38:01 884

原创 docker打包jar镜像

小编最近在实习公司帮忙做项目部署,对方要求需要把jar包再次进行docker镜像封装,小编呢也没有了解过docker镜像,于是就去百度了一波,发现了这个Docker中文文档,感觉还不错,大家不会的可以来看看,很详细的介绍了有关Docker的东西,不多说,直接做。系统:Ubuntu16.04要求:apt、wget、ssh、docker、linux版的JDK以及交互界面(xshell、xftp)...

2018-11-20 15:33:23 1726

转载 又见贝叶斯算法--ython

目录贝叶斯要解决的问题:为什么要使用贝叶斯:理解贝叶斯例子:计算过程:贝叶斯公式:贝叶斯公式推导&amp;amp;nbsp;python经典取球实例:&amp;amp;nbsp;python拼写纠正实例:模型比较理论求解:argmaxc P(c|w) -&amp;amp;gt; argmaxc P(w|c) P(c) / P(w)贝叶...

2018-11-09 17:56:04 277

原创 2019年计算机会议

1、CVPR 2019: IEEE Conference on Computer Vision and Pattern RecognitionDeadline:Nov 16, 2018 (6)Conference Date:Jun 15 - Jun 21, 2019http://cvpr2019.thecvf.com2、NIPS 2018: Neural Information Proce...

2018-11-09 17:48:24 2381

转载 java解析json的方法

JSON数据解析的有点在于他的体积小,在网络上传输的时候可以更省流量,所以使用越来越广泛,下面介绍使用JsonObject和JsonArray的两种方式解析Json数据。使用以上两种方式解析json均需要依赖json-lib.jar开发包使用依赖包1、JsonObject使用JsonObject解析只有一条数据的json是非常方便的例...

2018-11-08 11:31:00 291

原创 BERT-深度模型的里程碑

今天看到了一则令NLP人振奋的消息,谷歌发布了迁移学习之最强模型-BERT,该模型一举打破了11项纪录,尤其是在斯坦福大学的SQuAD数据集上再次超越了人类评测专家标准,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。被称为“全面超越人类的模型”,下面我们就看看BERT模型厉害之处。BERT(Bidirectional Enco...

2018-11-07 09:37:47 2511

原创 word2vec训练中文语料

最近在做一个问答系统,看了很多论文,主要学习作者是如何进行做问答的,大都是这个过程:1、构建语料库;2、训练词向量;3、问题间和问答间的相似度对比;4、在线搜索答案。5、信息抽取;6、生成答案。网上大都是对wiki百科开源的中文语料进行训练的,很多作者都会对自己构建的语料进行向量模型计算,因此,我也需要进行训练,可供选择的两种算法一种是word2vec算法,一种是Glove算法,但是...

2018-10-30 14:57:05 3061 1

原创 Linux配置深度学习环境

今天在阿里云上申请了一个深度学习服务器,碰到了很多坑,在网上查了好多资料,大都是自己电脑可以别的电脑就不可以的那种,整合了多个博客的文章才把环境配置好,现在写一个完整的配置方案,以后用起来就方便多了,也供大家参考。一、首先安装nvidia驱动:***在官网上查找符合自己gpu的驱动:http://www.nvidia.com/Download/index.aspx,选择合适的版本下载。更新系...

2018-10-22 17:18:56 2693

原创 python3 pdf转成txt

这两天在做一个pdf转txt文档的工作,真是搞的头大,pdf本来就不好搞,还要转成txt文档,在网上和github上查了一番资料,好的是关于python转txt文档的还不少,不好的是大都是关于python2.x版本的,无奈。。。。。不知道大家是不是很长时间没有关注这个功能了,大都停留在2.x版本,然而python2就要快不用了,现在python3.x版本这么流行,因此,我就把python2版本的...

2018-10-19 09:43:40 6340 3

原创 python封装成exe

最近写了一个小小的程序,需要进行封装exe,为了简单,就直接用了pyinstaller这个模块,对于python3.6版本的童鞋来说,简直方便的不要。下面就给大家介绍一下如何用pyinstaller去封装程序为exe程序。首先,需要安装一下pip这个应用,这个已经在前面的文章中说过了,windows和linux都有请借鉴windows和linux。第二步,安装好pip之后,在cmd命令窗口中输...

2018-10-17 14:45:15 69759 28

转载 BiDAF笔记

本文转载于http://www.shuang0420.com/2018/04/01/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%20-%20Bi-Directional%20Attention%20Flow%20for%20Machine%20Comprehension/在此感谢这篇论文主要对 attention 机制做了改进,为此作者总结了 MC 任务上过去常用的...

2018-10-15 15:00:26 4222

原创 “GET /CPIS/static/css/index.css HTTP/1.1“ 404 2389

今天在引入css静态文件的时候发现前端的根本加载不出来效果,感觉很郁闷,以前直接引入就可以的,后来度了很多网站,总结了很多,这才改好了。 我们默认的setting中最后这是这样的 没有明确的引入css文件,所以在setting中是找不到的,那么我们就将static这个静态文件夹引入进来。 在这个下面加上 STATICFILES_DIRS=[(os.path.join(BASE...

2018-09-12 14:32:03 11902 3

echarts.min.js

echarts.min.js

2021-03-09

echarts-wordcloud.min.js

echarts-wordcloud.min.js

2021-03-09

simhashStr.py

通过对大规模文本进行hash值比较,分析两两字段之间的相似性,整体的性能还可以,能作为基础的算法进行使用。

2020-06-23

最新工具文件

如果使用pyspider连接数据库时,提示no module named mysql,那么就将以下两个文件夹copy到G:\anaconda\Lib\site-packages路径下.

2018-07-16

fe助手和restlet client

工欲善其事必先利其器,这两个可以很大程度上对开发者有所帮助。

2018-07-10

中英双语对照语料

鉴于大家要求发布了中英双文对照语料,大概有百兆以上,大家可以拿来试试。

2018-05-29

Linux从入门到精通(第2版)

Linux从入门到精通(第2版)这本书还不错,适合刚接触Linux系统的人们。

2018-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除