自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (6)
  • 收藏
  • 关注

转载 爬虫入门讲解:基础理论篇

关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是: 我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍 一、我们的目的是什么 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 1. 关于非结构化的数据 1.1 HTML文本(包

2015-11-16 10:27:11 651

原创 Web文本去噪——基于DOM树的哈希值去噪法

不知从什么时候,自己居然走上了玩Java的道路。本以为做葡萄城杯是我最后一次用Java来写程序,现在看来只能说世事无常,我们永远不知道明天会发生什么,就像我无论如何也没想到一心想利用暑假时间好好看Linux C,最终却玩上Java一样。是的我没有写错,后者比起前者更让我感到吃惊。 言归正传,项目需要,需要对爬虫抓取下来的网页进行去噪。 广义上的Web去噪大致分为三类:一是去除重复的网页

2015-11-04 18:56:30 2784

图片识别ocr

图片识别ocr

2017-07-07

java反编译工具

一个轻巧好用的java反编译工具,是查看java源文件的神器。

2015-06-23

jsoup中文帮助文档

jsoup 中文帮助文档 1. 解析和遍历一个html文档输入 2. 解析一个html字符串 3. 解析一个body片断 4. 根据一个url加载Document对象 5. 根据一个文件加载Document对象数据抽取 6. 使用dom方法来遍历一个Document对象 7. 使用选择器语法来查找元素 8. 从元素集合抽取属性、文本和html内容 9. URL处理 10. 程序示例:获取所有链接数据修改 11. 设置属性值 12. 设置元素的html内容 13. 设置元素的文本内容html清理 14. 消除不受信任的html (来防止xss攻击)

2013-12-06

Highcharts统计分析

Highcharts绘制表格,统计分析,线性图,饼状图,等例子。

2013-11-06

httpclient4源码

httpclient4源代码。

2013-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除