JAVA-爬虫
0世界和平0
记录我成长的历程
展开
-
有关JSOUP学习分享(一)
其实现在用JSOUP爬虫的也不多了,但是由于最近换公司,做数据爬虫需要用到,就看了下,感觉还是挺好用的,原理什么的感觉和weblogic也差不到哪里去,废话少说,这里就简单的分享下最近接触的干货。 JSOUP实现原理也简单说一下,可能有不对的地方评论欢迎指正。我们可以使用JSOUP直接解析某个URL地址或者指定的HTML文本,将抓取的网页或者文本内容加载到Docume...原创 2018-05-16 18:19:34 · 146 阅读 · 0 评论 -
jsoup爬虫,项目实战,欢迎收看
import com.mongodb.BasicDBObject import com.mongodb.DBCollection import org.jsoup.Jsoup import org.jsoup.nodes.Document import org.jsoup.nodes.Element import org.jsoup.select.Elements public class Zh...原创 2018-05-16 18:10:54 · 545 阅读 · 0 评论 -
JAVA爬虫---验证码识别技术(一)
Python中有专门的图像处理技术比如说PIL,可以对验证码一类的图片进行二值化处理,然后对图片进行分割,进行像素点比较得到图片中的数字。这种方案对验证码的处理相对较少,运用相对普遍,很多验证码图片可以通过这个方式得到识别,当然还需要一部分的降噪处理。 什么是图片二值化处理:简单也就是把一张五颜六色的验证码处理成一张只由黑白构成的验证码,这个是为了方便后期我们和保...原创 2018-10-29 15:26:44 · 10048 阅读 · 4 评论 -
验证码处理算法(一)
在面对那种有许多干扰线或者干扰点的验证码,或者各种各样的验证码的时候,往往一个阀值是无法精确的处理图形验证码的,这里,我们主要使用一个范围缩圈进行像素点的比对,因为之前有使用计算像素的平均值K作为阈值,但是会导致部分对象像素或者背景像素丢失,故这个方案暂且搁置。 我们知道每一个像素点都有自己的像素值,但是对于一张验证码来说,同一个字母颜色或深或浅,其像素点的值都会有差...原创 2018-12-03 15:04:50 · 1342 阅读 · 0 评论