- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 启动Zookeeper + Hadoop + Hbase + Kafka大数据服务
Hadoop是非常流行的大数据框架,Zookeeper提供了高效的协调服务,Hbase高度依赖zk,是基于HDFS系统,具有可伸缩性,非常适合存储复杂的数据结构,这三者作为一个系统整体,Kafka是作为缓存队列弥补Hbase写入性能较差的不足,让我们去走进它。1、Zookeeper + Hadoop + Hbase大数据服务的架构图 如上图...
2018-09-30 23:45:13 1910
原创 【逆向工程】从源码分析网站反爬虫措施
从事网页爬虫工作有两年了,从最开始的新闻,bbs论坛,论文网站,到现在的全国企业信用信息公示系统,无论是PC网页,到手机移动APP,还是现在的支付宝微信小程序一直采集别人家网站上的数据,也算得上也是身经百战。如今,领导安排我注意收集整理归纳一下反爬虫措施,好直接用到我们自家的网站上,以免辛辛苦苦得来的数据被人轻而易举的抓取了。 1、浏览器Cookies中的JSESSI...
2018-09-26 21:06:17 925
原创 Java中如何处理带双引号的字符串
Java中char是用' '单引号,字符串用" "包起来即可。但是今天恰逢遇到要用Java执行js代码,因为两种编程语言间格式的差异,让我不得不处理字符串中带双引号的问题。Python中有''' '''三引号,实现多行注释,迫切希望Java中有一天能更新上此特性。话不多说,看看代码吧。处理前:运行报错:Multiple markers at this line - ...
2018-09-18 19:01:11 21076
转载 爬虫采集全国工商系统的数据(外接打码平台)
javascript的代码用的是java的javascript引擎,用python的jpype去调用java的对象。因为试了好多python的js库,PYv8装起来太麻烦。而且对js的eval函数支持不是很好,后面就用了java 的js引擎。java的话打包成jar或者class文件,java用的是1.8版本#coding:UTF-8import jsonimport reimpo...
2018-09-18 18:40:57 8443 7
原创 快速搜索性能问题调研
最近因为项目需要做搜索,安排我对搜索的性能这一方面做调研。本文档调研了simhash和es为代表的搜索方案。用Simhash和ElasticSearch做搜索各有优缺点,综合来看可这么标签:Simhash是偏计算密集型的搜索方案代表,但算法方案复杂;ElasticSearch是IO和硬件消耗大的搜索方案,但易用性更高;因为精力资源有限,不能亲自搭建上述方案进行实际测试对比,后续条件成熟可以...
2018-09-18 18:26:49 497
原创 jenkins 自动打包部署爬虫项目
最近因工作需要,负责看护公司的生产环境,有16台生产服务节点,所以必须得引入自动化管理工具,不然我可不得累死啊。本文记录一下在使用Jenkins发布过程的整个过程。1.启动Jenkins服务2.登陆网页3.配置3.1点击选择“配置”3.2添加项目描述3.3 添加项目名称3.4配置SVN路径3.5配置SVN账户3.6是否打基...
2018-09-14 21:21:11 981
原创 【珍藏】积攒的高逼格Python代码,持续更新中......
用Python编程很久了,总感觉写的很low,可不能总这样呢。程序员逼格很重要,特别是以后还得不断进阶。于是学习一下别人Pythonic的风格,以备不时之需.............1.简洁的编码汇总1.1 快速生成字典>>> dict(zip('张李王','三四五')){'张': '三', '李': '四', '王': '五'}>>>...
2018-09-11 19:59:42 1125 1
原创 Github解除账号被封的方法
1.事由 9月8日下午,往GitHub发布了个项目。也不知道为啥,GitHub账号突然登陆不上,社区登录界面提示:2.处理过程 真是莫名其妙啊!没办法,按照上面说的给社区管理员发了一封邮件,请求帮忙恢复账户。于是等啊等啊等................... 3.结果 等到第三天,GitHub有位叫劳里的哥们给我发邮件,道歉称系统判断失误。简直是...
2018-09-10 21:12:02 22859 7
原创 LeetCode练习:蓄水池问题 (内附Java和Python的实现方法)
刷了道练习题目,关于蓄水池的问题,这里我分别用Python和Java实现一下。题目:Givennnon-negative integersa1,a2, ...,an, where each represents a point at coordinate (i,ai).nvertical lines are drawn such that the two e...
2018-09-08 08:25:06 4683
原创 高可用redis集群,redis-sentinel哨兵模式的启动
redis一旦断电数据会清除,Redis哨兵是一个分布式系统。哨兵进程间互相监控、通知、自动故障迁移和选举产生新的master。启动集群分三步:启动zookeeper,启动redis,启动redis-sentinel,注意启动顺序可不能乱。1.后台启动zookeeper启动集群内各节点的zookeepernohup /application/zookeeper3_1/bin/...
2018-09-06 18:40:29 5984 2
转载 选字验证码破解思路:CTPN - 自然场景文本检测
前言 最近准备极验3代,选字验证码的破解。之前用CNN实现端到端的字符型验证码破解已满足不了需求了,我以为破解选字验证码关键步骤有三:1.图片文本的识别;2.字符坐标的识别;3.字序的识别。设计的技术有,图片识别技术、特征位置检测和NLP处理。本文作为关键技术之一,用于收录转载,感谢本篇论文的翻译者!目录作者和相关链接 几个关键的Idea出发点 方法概括 方法细节 实验结...
2018-09-04 09:54:57 5422
原创 scrapy采集论文数据(附开源项目源码)
最初做的是本硕博专业论文数据的采集,后来一直从事NLP工作。爬虫是重要的环节,生怕后来遗忘了,这里记录一下之前的编码项目,项目开源到了社区,需要的请移步GitHub查看,不做过多说明解释。 源码请参考Github地址:https://github.com/SimonWang00/weipu 注:本项目仅供学习交流使用,请勿做非法用途!...
2018-09-02 15:50:58 800
原创 简易灵活的Ipproxypool检测机制
致敬经典:https://github.com/qiyeboy/IPProxyPool 。这里提供了经典的IP代理使用方案,需要的小伙伴可蹲点到此项目,但使用过程中发现对python3版本支持的并不友好,问题较多。于是,这里提供了简易灵活的Ipproxypool检测机制。源码我发布到了github:https://github.com/SimonWang00/ez_IPProxyPool...
2018-09-02 09:38:38 392
366万常用的中文词汇整理
2018-09-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人