关闭

各种典型反爬虫套路

反击爬虫,前端工程师的脑洞可以有多大?...
阅读(5) 评论(0)

微博分析报告学习

一份微博分析报告, 本文主要将网页内容截屏为图片,主要用于学习,有兴趣的同学可以到原文微博传播效果分析...
阅读(28) 评论(0)

javaNLP-各种Java分词工具比较

转载自:Java开源项目cws_evaluation:中文分词器分词效果评估对比中文分词器分词效果评估对比捐赠致谢使用说明:如何建立开发环境?如果是使用Netbeans、IDEA,则直接打开项目 如果是使用Eclipse、MyEclipse,则要执行导入操作 推荐使用IDEA 评估采用的测试文本位于data目录下,253 3709行,共2837 4490个字符test-test.txt为未分词的文件...
阅读(10) 评论(0)

JavaNLP-分词学习与研究:word分词

转载自:Java分布式中文分词组件 - word分词Java分布式中文分词组件 - word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定...
阅读(17) 评论(0)

Phantomjs服务模式:从性能并发方面谈起

作为比较好的动态网页爬虫手段,phantomjs在许多方面令人比较满意。调用Phantomjs的方式,一般有如下几种情况。命令行模式  在CMD或Shell中,直接输入phantomjs回车,进入命令行模式,能够完成各种操作。但一般情况是通过命令用调用phantomjs来完成爬虫或模拟工作,具体的代码放在JS中。如../bin/phantomjs --debug=yes ./server.js 89...
阅读(44) 评论(0)

Weibo单节点爬虫设计

微博目前开发数据接口,如果用于商业用途最好通过此接口来获取微博数据。作者爬去少量数据,仅用于研究学习。...
阅读(25) 评论(0)

RSA 加密算法备忘

import java.io.UnsupportedEncodingException; import java.math.BigInteger; import java.security.InvalidKeyException; import java.security.KeyFactory; import java.security.NoSuchAlgorithmException; impor...
阅读(24) 评论(0)

Crontab整点运行问题

无论是使用Linux自带crontab程序,还是使用cron-utils的crontab语法解析,都存在整点运行问题。问题来源使用crontab语法的时候,如果是固定间隔运行,如0 0/5 * * * * 30 */30 * * * * ...其中分钟间隔只能是60的因子,如果不是60的因子,那么存在整点运行问题。如运行计划为10 0/29 * * * *那么运行时刻可能为Mon Oct 09...
阅读(51) 评论(0)

Spark RDD/DataFrame map保存数据的两种方式

使用Spark RDD或DataFrame,有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。直接保存数据当然如果不需要在map里面保存数据,那么针对RDD可以有如下方式val rdd = // target rdd rdd.saveAsHadoopFile // add some parameters 针对DataFrame可以有如下方式保存数据val...
阅读(63) 评论(0)

HTML全文转化为PDF技术选型研究与流行方法汇总

在实际也无需求中,需要用到网页快照功能,并能够查看历史网页快照功能,因此需要实现网页格式的固化保存,保存为图片或PDF文件的形式。技术研究  做这样研究了网上许多技术,大都存在各种各样的缺陷。html2canvas&jsPDF  感兴趣的读者,可以参考: https://github.com/linwalker/render-html-to-pdf   该种方法,主要是通过JS调用实现,无法通过脚...
阅读(32) 评论(0)
38条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:11181次
    • 积分:447
    • 等级:
    • 排名:千里之外
    • 原创:31篇
    • 转载:6篇
    • 译文:1篇
    • 评论:3条
    文章分类
    最新评论