- 博客(4)
- 资源 (7)
- 问答 (2)
- 收藏
- 关注
原创 Wget
初识Wget 今天打算自己写一个httpclient应用,看到自己半年前的代码提示自己调用httpclient都是不提倡的方法,所以写一个新的。 查看开发文档,只有在线的,源码中也没有。对 hc.apache.org查了半天,找了一个目录:http://hc.apache.org/httpcomponents-client-4.4.x/httpclient/ 开发文档都在,接下里就是下载。网上
2015-05-28 16:44:09 561
原创 java中Url处理
在开发爬虫的过程中会解析出Url地址,因为不同网站的不同风格,这些Url有些是相对路径,有些是绝对路径,有些是广告链接。 我们需要统一处理这些新的额Url1.过滤Url 假如我们想只采集一个网站的信息,就需要把和这个网站有关的Url放入queue 一般的方法是Regex 根据网站Url的特点编写,逐一匹配过滤Url。2.相对地址转绝对地址有些网站的Url采用相对地址,有些是绝对地址,绝对地址
2015-05-27 19:17:21 841
原创 Mysql 数据导入
情景:需要把A表的数据导入同一个数据库的B表中 语句:> insert into> donews(Url,title,keywords,description,content,create_time,crawler_time,site,first_img_src)> SELECT> Url,title,keywords,description,content,create_time,cra
2015-05-19 17:16:18 432
原创 简单的爬虫停止代码
今天第二段shell脚本 停止运行的Java爬虫spiderPID=0for spider in spider141212Run spider141205Run spider141213Run spider141204Rundo echo 'stop crawler' $spider $te; ps=`ps -ef | grep $spider | grep -v grep`
2015-05-08 15:40:14 1052
java源码中一个抽象类初始化方法中包含一个super(),该怎么理解
2015-08-13
Maven 环境配置[黑魔法]
2015-05-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人