自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中国小宝

数据挖掘, Python, 机器学习,Java,爬虫

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 启动Zookeeper + Hadoop + Hbase + Kafka大数据服务

        Hadoop是非常流行的大数据框架,Zookeeper提供了高效的协调服务,Hbase高度依赖zk,是基于HDFS系统,具有可伸缩性,非常适合存储复杂的数据结构,这三者作为一个系统整体,Kafka是作为缓存队列弥补Hbase写入性能较差的不足,让我们去走进它。1、Zookeeper + Hadoop + Hbase大数据服务的架构图          如上图...

2018-09-30 23:45:13 1910

原创 【逆向工程】从源码分析网站反爬虫措施

从事网页爬虫工作有两年了,从最开始的新闻,bbs论坛,论文网站,到现在的全国企业信用信息公示系统,无论是PC网页,到手机移动APP,还是现在的支付宝微信小程序一直采集别人家网站上的数据,也算得上也是身经百战。如今,领导安排我注意收集整理归纳一下反爬虫措施,好直接用到我们自家的网站上,以免辛辛苦苦得来的数据被人轻而易举的抓取了。 1、浏览器Cookies中的JSESSI...

2018-09-26 21:06:17 925

原创 Java中如何处理带双引号的字符串

    Java中char是用' '单引号,字符串用" "包起来即可。但是今天恰逢遇到要用Java执行js代码,因为两种编程语言间格式的差异,让我不得不处理字符串中带双引号的问题。Python中有''' '''三引号,实现多行注释,迫切希望Java中有一天能更新上此特性。话不多说,看看代码吧。处理前:运行报错:Multiple markers at this line    - ...

2018-09-18 19:01:11 21076

转载 爬虫采集全国工商系统的数据(外接打码平台)

javascript的代码用的是java的javascript引擎,用python的jpype去调用java的对象。因为试了好多python的js库,PYv8装起来太麻烦。而且对js的eval函数支持不是很好,后面就用了java 的js引擎。java的话打包成jar或者class文件,java用的是1.8版本#coding:UTF-8import jsonimport reimpo...

2018-09-18 18:40:57 8443 7

原创 快速搜索性能问题调研

    最近因为项目需要做搜索,安排我对搜索的性能这一方面做调研。本文档调研了simhash和es为代表的搜索方案。用Simhash和ElasticSearch做搜索各有优缺点,综合来看可这么标签:Simhash是偏计算密集型的搜索方案代表,但算法方案复杂;ElasticSearch是IO和硬件消耗大的搜索方案,但易用性更高;因为精力资源有限,不能亲自搭建上述方案进行实际测试对比,后续条件成熟可以...

2018-09-18 18:26:49 497

原创 jenkins 自动打包部署爬虫项目

        最近因工作需要,负责看护公司的生产环境,有16台生产服务节点,所以必须得引入自动化管理工具,不然我可不得累死啊。本文记录一下在使用Jenkins发布过程的整个过程。1.启动Jenkins服务2.登陆网页3.配置3.1点击选择“配置”3.2添加项目描述3.3 添加项目名称3.4配置SVN路径3.5配置SVN账户3.6是否打基...

2018-09-14 21:21:11 981

原创 【珍藏】积攒的高逼格Python代码,持续更新中......

    用Python编程很久了,总感觉写的很low,可不能总这样呢。程序员逼格很重要,特别是以后还得不断进阶。于是学习一下别人Pythonic的风格,以备不时之需.............1.简洁的编码汇总1.1 快速生成字典>>> dict(zip('张李王','三四五')){'张': '三', '李': '四', '王': '五'}>>&gt...

2018-09-11 19:59:42 1125 1

原创 Github解除账号被封的方法

1.事由    9月8日下午,往GitHub发布了个项目。也不知道为啥,GitHub账号突然登陆不上,社区登录界面提示:2.处理过程    真是莫名其妙啊!没办法,按照上面说的给社区管理员发了一封邮件,请求帮忙恢复账户。于是等啊等啊等................... 3.结果    等到第三天,GitHub有位叫劳里的哥们给我发邮件,道歉称系统判断失误。简直是...

2018-09-10 21:12:02 22859 7

原创 LeetCode练习:蓄水池问题 (内附Java和Python的实现方法)

刷了道练习题目,关于蓄水池的问题,这里我分别用Python和Java实现一下。题目:Givennnon-negative integersa1,a2, ...,an, where each represents a point at coordinate (i,ai).nvertical lines are drawn such that the two e...

2018-09-08 08:25:06 4683

原创 高可用redis集群,redis-sentinel哨兵模式的启动

    redis一旦断电数据会清除,Redis哨兵是一个分布式系统。哨兵进程间互相监控、通知、自动故障迁移和选举产生新的master。启动集群分三步:启动zookeeper,启动redis,启动redis-sentinel,注意启动顺序可不能乱。1.后台启动zookeeper启动集群内各节点的zookeepernohup /application/zookeeper3_1/bin/...

2018-09-06 18:40:29 5984 2

转载 选字验证码破解思路:CTPN - 自然场景文本检测

前言    最近准备极验3代,选字验证码的破解。之前用CNN实现端到端的字符型验证码破解已满足不了需求了,我以为破解选字验证码关键步骤有三:1.图片文本的识别;2.字符坐标的识别;3.字序的识别。设计的技术有,图片识别技术、特征位置检测和NLP处理。本文作为关键技术之一,用于收录转载,感谢本篇论文的翻译者!目录作者和相关链接 几个关键的Idea出发点 方法概括 方法细节 实验结...

2018-09-04 09:54:57 5422

原创 scrapy采集论文数据(附开源项目源码)

      最初做的是本硕博专业论文数据的采集,后来一直从事NLP工作。爬虫是重要的环节,生怕后来遗忘了,这里记录一下之前的编码项目,项目开源到了社区,需要的请移步GitHub查看,不做过多说明解释。       源码请参考Github地址:https://github.com/SimonWang00/weipu 注:本项目仅供学习交流使用,请勿做非法用途!...

2018-09-02 15:50:58 800

原创 简易灵活的Ipproxypool检测机制

    致敬经典:https://github.com/qiyeboy/IPProxyPool  。这里提供了经典的IP代理使用方案,需要的小伙伴可蹲点到此项目,但使用过程中发现对python3版本支持的并不友好,问题较多。于是,这里提供了简易灵活的Ipproxypool检测机制。源码我发布到了github:https://github.com/SimonWang00/ez_IPProxyPool...

2018-09-02 09:38:38 392

366万常用的中文词汇整理

作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除