自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夜谷子

观世事之经纬以命物,知存亡之门户;筹策万类之始终,达人心之理;见变化之朕焉,而守司其门户。

  • 博客(11)
  • 收藏
  • 关注

原创 Java单元测试框架与实践(Junit5 + Mockito)

Java单元测试框架与实践本文首先在理论上归纳了单元测试在宏观和微观层面要遵循的基本原则,以及测试覆盖率的要求和评价维度。然后具体阐述了笔者实战中总结的基于Junit + Mockito 的单元测试框架和具体实施方法。本文主要参考和引用了《码出高效:Java开发手册》、Junit5、mockito等官方文档以及若干篇相关博客的内容,具体可见文末参考链接部分。基本原则宏观层面:AIR原则...

2020-06-01 10:40:33 7870 1

原创 docker创建Mysql/MongoDB/Neo4j/RabbitMQ

Mysql# 自动拉取(下载)MySQL镜像docker pull mysql# 查看是否下载成功docker images# 创建并启动一个MySQL容器docker run --name pwc-mysql -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -d mysql# 查看容器运行状态docker ps# 进入容器docker e...

2019-04-02 09:55:08 531

原创 scrapy爬虫抓取百度网页(结果列表页和原文页正文提取)

本项目能够针对给定的搜索关键词列表,抓取百度网页搜索的前N页搜索结果。主要贡献点:通过综合利用正文提取工具(jparser+url2io),提高了搜索结果原文的正文提取成功率和准确率。本文完整代码详见:https://github.com/Neo-Luo/scrapy_baidu需求提供搜索关键词列表,针对每个关键词,返回搜索结果页前N页的搜索结果,保存为csv文件。保存字段:(1)搜...

2019-03-18 10:18:41 3591 1

原创 tesseract-OCR的在验证码识别中的重训练与使用

字符型图片验证码的识别安装图片验证码识别包安装pip install pytesseractpip install PILLOWtesseract-OCR编译安装(1)leptonica编译安装下载地址:http://www.leptonica.com/download.html编译安装:tar zxvf leptonica-1.75.3.tar.gzcd leptonic...

2019-03-08 16:47:36 687

原创 MongoDB的安装、Mongo shell和PyMongo的基本使用

安装(CentOS 7环境下)1、下载安装包curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.2.12.tgz2、解压tar -zxvf mongodb-linux-x86_64-3.2.12.tgz3、移动到指定位置mv mongodb-linux-x86_64-3.2.12/ /usr/local/...

2018-11-01 10:05:36 2052

原创 文本在线查重(Online Copy Detection)的实现

文本在线查重(Online Copy Detection)的实现概述需求给定一段文本,需要返回其和网络开放性数据相比的整体重复率以及具体的重复情况(具体重复的句子/字符串以及重复程度)。问题分析该问题属于copy-detection领域。由于需要给出查询文本具体重复的句子/字符串以及相应的重复程度,所以我们需要对查询文本进行合理的切分,并需要一一计算出切分后得到的字符串与在线开放互联...

2018-09-25 16:48:17 27537 13

原创 【文本相似性计算】minHash和LSH算法

minHash和LSH算法原理原理部分皆转载于http://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.htmlJaccard相似度判断两个集合是否相等,一般使用称之为Jaccard相似度的算法(后面用Jac(S1,S2)来表示集合S1和S2的Jaccard相似度)。举个列子,集合X = {a,b,c},Y = {b,c,d}。...

2018-09-25 14:27:06 15833 1

原创 【文本相似性计算】simHash算法

simHash算法原理simHash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。simHash算法很精巧,但却十分容易理解和实现,具体的simHash过程如下:首先将文章转换为一组加权的特征值构成的向量。初始化一个f维的向量V,其中...

2018-09-25 13:41:26 2272

原创 【文本相似性计算】winnowing算法

winnowing算法算法原理k-grams是指字符串中长度为k的子串,这些子串满足“高度邻接”(k值自定义)。比如一个字符串abcd,那么将abcd分解成3-grams就是abc和bcd两个子串,每个子串就称为一个3-gram。可以看到第二个子串仅仅是在第一个子串的基础上向后移了一个位置,所以对于一个长度为n的字符串,当我们将它分成k-grams后,将会形成n-k+1个子串,且每个子串长度...

2018-09-25 12:22:57 4068 4

翻译 【行业研究】中国智能投顾行业

中国智能投顾行业概要财富管理与新兴金融科技的结合,使得财富管理行业正在进入新的阶段——智能财富管理。近几年全球出现的智能投顾模式已然成为智能财富管理的一大热点。智能投顾,简而言之,就是基于投资者的投资需求和风险偏好,为其提供数字化、自动化、智能化的财富管理服务。和传统投顾相比,智能投顾最大的特征就是门槛低、费用低、高效率,因此,其对作为“长尾用户”的中低净值人群颇具吸引力。智能...

2018-08-31 09:33:25 8254

原创 字符型图片验证码的识别

字符型图片验证码情境下的爬虫实现概述需求访问地址:http://shixin.csrc.gov.cn/honestypub 每日请求量:万级请求成功率要求:80%以上请求反馈速度:5s以内方案设计操作系统:CentOS7 编程语言: python3(flask)爬虫:selenium图片识别:tesseract-OCR,PILLOW,jTessBo...

2018-08-30 16:25:58 1906

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除