爬虫基础
Biorad
天生我材必有用
展开
-
Java使用URL获取网页内容
使用URLConnection来获取网页的内容,发送get方法,如果所提供的是CSS代码,需求所需要的结果需要用到正则表达式来获取。package Get;import Post.PostMethod;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import原创 2016-10-31 12:48:41 · 1248 阅读 · 0 评论 -
写爬虫所用到的工具类--(1)
本文表述了写爬虫所用到的工具类package Tool;import java.util.LinkedList;/** * 这是一个url队列,获取到的网站的href都应该放入这个队里之中,为了保证每个链接只访问一次,所以要去重,如果队里已经包含了这个链接 * 就不将其加入队列 * Created by syb on 2016/10/29. */public class UrlQueue原创 2016-10-31 12:54:35 · 441 阅读 · 0 评论 -
java的Collection
线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在java.util包中。本文试图通过简单的描述,向读者阐述各个类的作用以及如何正确使用这些类。Collection├List│├LinkedList│├ArrayList│└Vector│ └Stack└SetMap├Hashtable├HashMap└WeakHashMa转载 2016-11-11 17:40:10 · 259 阅读 · 0 评论 -
写爬虫用到的工具类--(2)[时间格式化]
package Tool;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;/** * 格式化时间的工具类 * this is a time tool class * Copyright (C) 2016-2020 All Rights Reserved. *原创 2016-11-11 17:54:11 · 610 阅读 · 0 评论 -
写爬虫所用到的工具类---(3)[文件]
package Tool;import java.io.*;import java.util.ArrayList;import java.util.List;/** * this is a class that can operation file in the local, * Copyright (C) 2016-2020 All Rights Reserved. * * @auth原创 2016-11-11 17:55:42 · 369 阅读 · 0 评论 -
匹配搜索引擎的title和快照的正则表达式
360搜索匹配快照的正则表达式http://(\w*\W){1,10}url=http(\W*\w*){1,10}\W360webcache.com(\W\w*){1,80}(\W\w*){1,80}=haosou"\starget=(\W*\w*)"(.)class="\w*">快照360搜索匹配title的正则表达式<h3\s{1,2}class=\W\w*-title\s?\W*(\w*\W)原创 2016-11-16 15:29:32 · 723 阅读 · 0 评论