- 博客(2)
- 资源 (6)
- 收藏
- 关注
转载 爬虫入门讲解:基础理论篇
关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是: 我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍 一、我们的目的是什么 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 1. 关于非结构化的数据 1.1 HTML文本(包
2015-11-16 10:27:11 651
原创 Web文本去噪——基于DOM树的哈希值去噪法
不知从什么时候,自己居然走上了玩Java的道路。本以为做葡萄城杯是我最后一次用Java来写程序,现在看来只能说世事无常,我们永远不知道明天会发生什么,就像我无论如何也没想到一心想利用暑假时间好好看Linux C,最终却玩上Java一样。是的我没有写错,后者比起前者更让我感到吃惊。 言归正传,项目需要,需要对爬虫抓取下来的网页进行去噪。 广义上的Web去噪大致分为三类:一是去除重复的网页
2015-11-04 18:56:30 2784
jsoup中文帮助文档
2013-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人