自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中国小宝

数据挖掘, Python, 机器学习,Java,爬虫

  • 博客(52)
  • 资源 (1)
  • 收藏
  • 关注

原创 Golang注册Eureka的工具包goeureka发布

目录1.简介2.原理3.注册信息4.功能特性6.接入示例7.测试1.简介提供Go微服务客户端注册到Eureka中心。点击:github地址,欢迎各位多多star!2.原理goeureka主要是通过REST请求来与server进行通信。其中Java版本的核心实现请参看:com.netflix.discovery.DiscoveryClient3.注册信息注册eureka服务端的配置信息如下:{ "instance": { "instance.

2020-12-08 16:23:42 2303

翻译 【深度学习】更大规模的完整视频理解

译者:蓝燕子声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢!摘要近年来,视频识别技术在具有丰富注释的基准中得到了发展。然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的。视频理解任务,从而在描述视频的整体内容方面留下了很大的差距。我们通过展示一个大规模的“整体视频理解数据集”(HV)来填补这一空白U).在语义分类中,HVU是分层组织的,它侧...

2020-01-02 19:30:57 1525

原创 最近热门技术速览[2019.12]

全球技术报告 公众号:aihaoers12月热门技术大家都在看,共计5篇【1】概率建模与推理的规范化流程标题:概率建模与推理的规范化流程作者:George Papamakarios,Eric Nalisnick,Danilo Jimenez Rezende,Shakir Mohamed,Balaji Lakshminarayanan概要:规范化流提供了定义...

2020-01-02 18:14:40 337

翻译 RDSNet:一种用于交互对象检测和实例分割的新型深度体系结构

译者:蓝燕子声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢!摘要目标检测和实例分割是计算机视觉的两项基本任务。它们密切相关,但他们之间的关系在以往的大多数工作中还没有得到充分的探讨。本文提出了一种新的用于交互目标检测和实例分割的深度结构RDSNet。为了回应这两个任务,我们设计了一个两个流结构以共同学习对象级别(即边界框)和像素级别(即实例掩码)上的特征。在这个结构...

2020-01-02 18:12:07 3044

原创 最新全球科技速览[2020.1.1]

全球技术报告 公众号:aihaoerscs方向,今日共计10篇[检测分类相关]:object detection【1】基于学习空间融合的单发目标检测标题:基于学习空间融合的单发目标检测作者:Songtao Liu,Di Huang,Yunhong Wang概要:金字塔形特征表示法是解决对象检测中尺度变化挑战的常用方法。但是,对于基于特征金字塔的单发检测器,...

2020-01-02 17:27:02 366

原创 监控服务进程,进程挂了后就自动重启

背景生产环境中写Hbase性能较差,故开启了三个Hbase.thrift接口,通过haproxy负载均衡去写。今日发现有两个thrift写挂了,仅单个thrift能支撑写入9G的数据量,服务上线11天来首次挂且hbase服务还在,对此问题进行观测,故对此架构不做调整,写个shell监控服务,并监控重启服务即可。进程监控shell脚本:supervi...

2019-08-21 11:33:33 1625 4

原创 第4章 神经网络算法

本文主要介绍神经网络算法的过程:目录1.神经网络算法介绍1.1 神经网络1.2 神经网络的结构1.3 神经网络的结构设计1.4交叉验证算法1.5前向传播与反向传播算法1.6反向传播算法的举例2.神经网络算法的实现1.神经网络算法介绍1.1 神经网络神经网络就是模拟人的思维方式,通过学习或训练过程中改变参数值,以适应满足周围环境的要求,这是一个具有学习...

2019-04-21 15:46:18 1564

原创 第3章 SVM算法介绍

本文主要介绍SVM算法的过程:目录1.SVM算法1.1 SVM1.2 最大边际的超平面和向量点1.3公式建立过程1.4线性不可分(linear inseparable)1.5核方法2 SVM算法的简单运用1.SVM算法1.1 SVMSVM(Support Vector Machine)又称为支持向量机,最初是一种二分类的模型,后来修改之后也是可以用于...

2019-04-20 16:28:32 1748

翻译 前言 机器学习中的数学归纳整理(信息论部分)

本文收录归纳了一些机器学习中涉及到信息论的部分,主要用于特征抽取、统计推断、自然语言处理等。目录1.熵1.1自信息和熵1.2联合熵和条件熵2.互信息3.交叉熵和散度3.1交叉熵3.2KL 散度3.3JS 散度3.4Wasserstein 距离1.熵1.1自信息和熵熵(Entropy)最早是物理学的概念,用于表示一个热力学系统的无序程...

2019-03-31 22:25:24 288

翻译 前言 机器学习中的数学归纳整理(概率论部分)

本文收录归纳了一些机器学习中涉及到概率论的部分,主要用于研究建模究大量随机现象中的数量规律。目录1事件和概率1.1 随机变量1.1.1 离散随机变量1.1.2 连续随机变量1.1.3 累积分布函数1.2 随机向量1.2.1离散随机向量1.2.2连续随机向量1.2.3边际分布1.2.4条件概率分布1.2.5独立与条件独立1.2.6 期望和...

2019-03-31 09:55:54 1617

翻译 前言 机器学习中的数学归纳整理(线性代数部分)

本文收录归纳了一些机器学习中涉及到线性代数的部分,主要包含向量、向量空间(或称线性空间)以及向量的线性变换和有限维的线性方程组。目录1向量及向量空间1.1向量1.2向量空间1.3范数1.4 常见的向量2.矩阵2.1 线性映射2.2矩阵操作2.3 矩阵类型2.4 特征值与特征矢量2.5 矩阵分解1向量及向量空间1.1向量标...

2019-03-30 20:07:54 429

原创 第2章 KNN邻近规则算法及其在潜在客户发掘的应用

本文主要介绍KNN邻近规则算法的过程:目录1.KNN临近规则算法概述2.KNN算法的构建2.1 KNN2.2 KNN构建2.3 KNN优缺点3.KNN算法编码实现3.1 编码过程3.2 输出1.KNN临近规则算法概述KNN是机器学习领域一个简单又实用的算法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。...

2019-03-24 14:10:33 962

原创 第1章 决策树算法及其在商品购买行为预测的应用

本文主要介绍决策树的过程:目录1.决策树2.决策树的构建2.1信息熵2.2节点构建2.3决策树的优缺点3.决策树的编程实现。3.1 Python编码实现3.2输出1.决策树决策树一般都是自上而下的来生成的。每个决策事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。基本思想是以信息熵为度量构造一棵熵值下降...

2019-03-23 14:22:15 5703 2

原创 根据HSV分量模型,提取红色的几种方法介绍

根据hsv分量模型,各种颜色范围分布如下:红色的范围是:[0, 43, 46]~[10,255,255]∪[156, 43, 46]~[180,255,255]。红色比较特殊,覆盖了多个范围,处理起来增加了不少难度,以下介绍两种方法去获取红色。方法1:import cv2import numpy as npdef extract_red(pic): '''...

2019-03-19 18:50:10 15732 3

原创 redis包版本更新造成的问题记录

使用redis包过程中出现如下问题:Traceback (most recent call last): File "Check_UaPool.py", line 92, in <module> r.srem(REDIS_KEY,IP) File "/root/.pyenv/versions/3.6.5/lib/python3.6/site-packages/re...

2019-02-15 17:23:10 610

转载 darknet框架中YOLO3的参数理解

3.0 前言本文是YOLOv3系列第3篇,记录YOLOv3如何训练自己的模型。YOLOv3系列第1篇:win10下YOLOv3下载与编译YOLOv3系列第2篇:YOLOv3的应用YOLOv3系列第3篇:YOLOv3训练自己的模型建议参考github上作者的说明,写的十分清楚。参考的网...

2018-12-23 10:29:10 5875 7

原创 中文语序识别的方法一

一、前言        语序识别的两个思路:1.依据分词器收录的词语进行匹配查询; 2.依据海量词向量进行预测实现。二、主要思路        本文用第一种方法实现一下,主要思路如下:1.检查输入的字符串,并将各字随机排列组合生成不同的“词语”;2.将1中的词语在分词器的词库中进行匹配,返回词频;3.选择词频最大的词语作为正确的语序进行返回。三、实现代码impor...

2018-12-02 22:38:04 2081

转载 nginx添加ssl证书

1.为什么使用ssl证书数据加密传输,防止窃听 可以进行数据完整性检查,防篡改 可以进行身份验证,防冒充提示:登陆时用HTTPS可以防止别人截获用户名和密码1.1 lnmp安装未安装lnmp环境的,可以点击安装地址,进行安装1.2SSL通信过程客户端向服务器发请求,请求证书 服务器把证书发给客户端 客户端对比证书,成功进入不一步,否则告警 服务器收到对称密钥后保存,...

2018-11-29 10:10:25 893

转载 分类效果评估——acc、recall、F1、ROC、回归、距离

之前提到过聚类之后,聚类质量的评价:聚类︱python实现 六大 分群质量评估指标(兰德系数、互信息、轮廓系数)R语言相关分类效果评估:R语言︱分类器的性能表现评价(混淆矩阵,准确率,召回率,F1,mAP、ROC曲线)文章目录一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率**第一种方式:accuracy_score****第二种方式:metrics**其中av...

2018-11-28 20:04:42 6618

原创 使用elasticdump的方法进行跨地域的elasticsearch集群间数据迁移

1.提示需要账户和密码elasticdump --input http://es的ip:9200/test_xd --output ./test_xd.jsonWed, 21 Nov 2018 05:06:10 GMT | starting dumpWed, 21 Nov 2018 05:06:10 GMT | Error Emitted => {"error":{"root_c...

2018-11-21 13:14:28 4002

转载 MongoShake——基于MongoDB的跨数据中心的数据复制平台

摘要:MongoShake是基于MongoDB的通用型平台服务,作为数据连通的桥梁,打通各个闭环节点的通道。通过MongoShake的订阅消费,可以灵活对接以适应不同场景,例如日志订阅、数据中心同步、监控审计等。其中,集群数据同步作为核心应用场景,能够灵活实现灾备和多活的业务场景。背景在当前的数据库系统生态中,大部分系统都支持多个节点实例间的数据同步机制,如Mysql Master/Sla...

2018-11-20 20:30:32 612

原创 Django中如何写Ajax请求及CSRF认证

最近下雨没有去学车,无聊在学习django,记录一下。两个内容:Ajax和csrf。是post请求就要进行csrf验证,get请求则就不需要。如果不清楚csrf_token的使用,就会遇到“django csrf token missing or incorrect”的错误。一、Ajax请求1.1 GET请求的Ajax路由url.py配置:## Django ur...

2018-11-18 22:19:31 2191

原创 windows环境Python调用opencv出错的问题记录

1.报错现象使用cv2进行图像腐蚀时报错,版本号 3.4.3,如下:>>> erosion = cv2.erode(src,kernel)Traceback (most recent call last): File "<pyshell#22>", line 1, in <module> erosion = cv2.erode(sr...

2018-11-17 11:58:10 640 1

原创 图像腐蚀与图像膨胀(Python篇)

        在大学期间积累过一定的图像处理经验,OCR技术在我的日常工作中偶尔会用到,还是比较重要的。本文介绍图像的膨胀和腐蚀的基本概念及其各自的代码实现。        1.膨胀和腐蚀的基本概念        图像的膨胀(Dilation)和腐蚀(Erosion)是两种基本的形态学运算,主要用来寻找图像中的极大区域和极小区域。其中膨胀类似于“领域扩张”,将图像中的高亮区域或白色部分进...

2018-11-17 11:45:07 38520 2

原创 Python代码风格指南&编程规范

1 前言        纷吾既有此内美兮,又重之以修能。 ---- 屈原《离骚》 1.1 编写目的        本文用于指导我司使用python语言进行开发的人员。1.2 范围        测试人员、开发人员以及其他python语言使用者。2 简介        很多语言都有自己独有的编码风格,python以简洁优美著称,当然也不能例外。如果和本文规则发生任何冲突,...

2018-10-23 14:55:02 4495

原创 史上最全的中文词汇数据集

        腾讯正式开源一个大规模、高质量的中文词向量数据集。数据集中有800多万中文词汇,相比现有搜狗实验室,清华和哈工大公布的语料库,覆盖率、新鲜度及准确性上有大幅的提高。1、介绍        该语语料库给超过800万个中文单词和短语提供了200维矢量,有了这些词向量我们可以轻松的用于计算余弦相似度,海明距离,词向量距离等,可以广泛应用与具体的NLP处理、人工智能方向的应用。...

2018-10-21 20:02:42 10329 4

原创 解决jekins发布权限不足的问题 ERROR: Exception when publishing, exception message [Permission denied]

        用jenkins打包往各节点自动发布代码时,遇到如下问题:eie_info\\middlewares\\redirect_middleware.py', 'A eie_info\\middlewares\\user_agents.py', 'A eie_info\\scrapy.cfg', '已导出版本 37042。']export success in mo...

2018-10-17 20:14:02 22492 1

转载 【逆向工程2】反爬虫机制报告

今天的主题是反爬虫机制,网站如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈。一阶爬虫(技术篇)应用场景一:静态结果页,无频率限制,无黑名单。攻:直接采用scrapy爬取防:nginx层写lua脚本,将爬虫IP加入黑名单,屏蔽一段时间(不提示时间)应用场景二:静态结果页,无频率限制,有黑名单攻:使用代理(http proxy、VPN),随机use...

2018-10-16 10:17:23 428

转载 BiLSTM-CRF模型做基于字的中文命名实体识别

      在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。      小白一枚,简单介绍一下模型和实验结果,BiLSTM-C...

2018-10-14 12:29:15 6273 1

原创 定期清空大日志文件

        过完十一假期来发现,节前部署的十台服务器磁盘都占满了,导致各节点的服务都停止了。吃一堑,长一智。于是今天写个shell脚本定期清空日志文件,这里不要用删除,以免影响到正在启动的服务。1、确定大日志文件的路径        用find 指令找一下就可以定位到需要清理的日志,如下查找的 / 目录下大于50M的文件find . -type f -size +50M2、清...

2018-10-08 21:15:13 1441

原创 启动Zookeeper + Hadoop + Hbase + Kafka大数据服务

        Hadoop是非常流行的大数据框架,Zookeeper提供了高效的协调服务,Hbase高度依赖zk,是基于HDFS系统,具有可伸缩性,非常适合存储复杂的数据结构,这三者作为一个系统整体,Kafka是作为缓存队列弥补Hbase写入性能较差的不足,让我们去走进它。1、Zookeeper + Hadoop + Hbase大数据服务的架构图          如上图...

2018-09-30 23:45:13 1937

原创 【逆向工程】从源码分析网站反爬虫措施

从事网页爬虫工作有两年了,从最开始的新闻,bbs论坛,论文网站,到现在的全国企业信用信息公示系统,无论是PC网页,到手机移动APP,还是现在的支付宝微信小程序一直采集别人家网站上的数据,也算得上也是身经百战。如今,领导安排我注意收集整理归纳一下反爬虫措施,好直接用到我们自家的网站上,以免辛辛苦苦得来的数据被人轻而易举的抓取了。 1、浏览器Cookies中的JSESSI...

2018-09-26 21:06:17 935

原创 Java中如何处理带双引号的字符串

    Java中char是用' '单引号,字符串用" "包起来即可。但是今天恰逢遇到要用Java执行js代码,因为两种编程语言间格式的差异,让我不得不处理字符串中带双引号的问题。Python中有''' '''三引号,实现多行注释,迫切希望Java中有一天能更新上此特性。话不多说,看看代码吧。处理前:运行报错:Multiple markers at this line    - ...

2018-09-18 19:01:11 21183

转载 爬虫采集全国工商系统的数据(外接打码平台)

javascript的代码用的是java的javascript引擎,用python的jpype去调用java的对象。因为试了好多python的js库,PYv8装起来太麻烦。而且对js的eval函数支持不是很好,后面就用了java 的js引擎。java的话打包成jar或者class文件,java用的是1.8版本#coding:UTF-8import jsonimport reimpo...

2018-09-18 18:40:57 8470 7

原创 快速搜索性能问题调研

    最近因为项目需要做搜索,安排我对搜索的性能这一方面做调研。本文档调研了simhash和es为代表的搜索方案。用Simhash和ElasticSearch做搜索各有优缺点,综合来看可这么标签:Simhash是偏计算密集型的搜索方案代表,但算法方案复杂;ElasticSearch是IO和硬件消耗大的搜索方案,但易用性更高;因为精力资源有限,不能亲自搭建上述方案进行实际测试对比,后续条件成熟可以...

2018-09-18 18:26:49 509

原创 jenkins 自动打包部署爬虫项目

        最近因工作需要,负责看护公司的生产环境,有16台生产服务节点,所以必须得引入自动化管理工具,不然我可不得累死啊。本文记录一下在使用Jenkins发布过程的整个过程。1.启动Jenkins服务2.登陆网页3.配置3.1点击选择“配置”3.2添加项目描述3.3 添加项目名称3.4配置SVN路径3.5配置SVN账户3.6是否打基...

2018-09-14 21:21:11 996

原创 【珍藏】积攒的高逼格Python代码,持续更新中......

    用Python编程很久了,总感觉写的很low,可不能总这样呢。程序员逼格很重要,特别是以后还得不断进阶。于是学习一下别人Pythonic的风格,以备不时之需.............1.简洁的编码汇总1.1 快速生成字典>>> dict(zip('张李王','三四五')){'张': '三', '李': '四', '王': '五'}>>&gt...

2018-09-11 19:59:42 1132 1

原创 Github解除账号被封的方法

1.事由    9月8日下午,往GitHub发布了个项目。也不知道为啥,GitHub账号突然登陆不上,社区登录界面提示:2.处理过程    真是莫名其妙啊!没办法,按照上面说的给社区管理员发了一封邮件,请求帮忙恢复账户。于是等啊等啊等................... 3.结果    等到第三天,GitHub有位叫劳里的哥们给我发邮件,道歉称系统判断失误。简直是...

2018-09-10 21:12:02 23286 8

原创 LeetCode练习:蓄水池问题 (内附Java和Python的实现方法)

刷了道练习题目,关于蓄水池的问题,这里我分别用Python和Java实现一下。题目:Givennnon-negative integersa1,a2, ...,an, where each represents a point at coordinate (i,ai).nvertical lines are drawn such that the two e...

2018-09-08 08:25:06 4700

原创 高可用redis集群,redis-sentinel哨兵模式的启动

    redis一旦断电数据会清除,Redis哨兵是一个分布式系统。哨兵进程间互相监控、通知、自动故障迁移和选举产生新的master。启动集群分三步:启动zookeeper,启动redis,启动redis-sentinel,注意启动顺序可不能乱。1.后台启动zookeeper启动集群内各节点的zookeepernohup /application/zookeeper3_1/bin/...

2018-09-06 18:40:29 5995 2

366万常用的中文词汇整理

作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除