爬数据
persistenceヾ(◍°∇°◍)ノ
功不成,名不就,何以游戏人生! 努力到无能为力,拼搏到感动自己,路漫漫其修远兮,吾将上下而求索..
展开
-
httpclient爬取数据报错“未将对象引用设置到对象的实例“
推荐必看:https://blog.csdn.net/persistencegoing/article/details/84376427All rights reserved.No part of this article may be reproduced or distributed by any means,or stored in a database or retrieva...原创 2019-10-15 19:04:22 · 663 阅读 · 0 评论 -
一个HTTP打趴80%面试者
面试一年多,每当我问起面试者对HTTP的了解时,个个回答令我瞠目结舌,这些开发者都有3-5年的经验。请不要让我叫你野生程序员,是时候了解HTTP了,让我们当个正规军。起因面试官:请问你了解HTTP协议吗?前端开发:这不是应该后端清楚的吗?后端开发:这不是前端知道的吗?面试官:……我们先一本正经的来了解下HTTP(不包含传输层TCP),然后总结其中的精华回复面试官。HTT...转载 2019-03-29 10:48:19 · 117 阅读 · 0 评论 -
给你网上图片地址,把图片下载到本地电脑上
https://blog.csdn.net/persistencegoing/article/details/84376427public static void download(String urlString, String filename,String savePath) { try { // 构造URL URL url = new ...原创 2019-03-18 16:07:57 · 1274 阅读 · 0 评论 -
Java把Html格式文本转换成纯文本的问题
https://blog.csdn.net/persistencegoing/article/details/84376427工作上需要把一段html内容转换成纯文本。最简单的办法,是用正则表达式把全部的标签替换成空字符串,然后把被转义的内容(尖括号,空格等)转回来。这里用到了StringEscapeUtils,来自Apache Commons Lang library (commons-...原创 2019-03-18 11:19:10 · 4200 阅读 · 0 评论 -
反爬技术
https://blog.csdn.net/persistencegoing/article/details/84376427 反爬虫 的技术大概分为四个种类: 传统反爬虫手段1、后台对访问进行统计,如果单个IP访问超过阈值,予以封锁。这个虽然效果还不错,但是其实有两个缺陷,一个是非常容易误伤普通用户,另一个就是,IP其实不值钱,几十块钱甚至有可能买到几十万个IP。所以总体...转载 2018-12-10 16:37:15 · 304 阅读 · 0 评论 -
抓包工具【Fiddler学习】Fiddler教程,比较经典全面-----------四
https://blog.csdn.net/persistencegoing/article/details/84376427简介Fiddler(中文名称:小提琴)是一个HTTP的调试代理,以代理服务器的方式,监听系统的Http网络数据流动,Fiddler可以也可以让你检查所有的HTTP通讯,设置断点,以及Fiddle所有的“进出”的数据(我一般用来抓包),Fiddler还包含一个简...转载 2018-12-07 14:48:14 · 335 阅读 · 0 评论 -
抓包工具【Fiddler学习】Fiddler面板的详细介绍-----------三
https://blog.csdn.net/persistencegoing/article/details/84376427 下面开始分析主界面的功能区:1、Fiddler菜单栏,上图黑色部分,包括捕获http请求,停止捕获请求,保存http请求,载入本地session、设置捕获规则等功能。2、Fiddler的工具栏,上图黄色部分,包括Fiddler针对当前view的操作(暂停,...转载 2018-12-07 14:42:02 · 282 阅读 · 0 评论 -
抓包工具【Fiddler学习】Fiddler抓包HTTPS请求和手机抓包-----------二
https://blog.csdn.net/persistencegoing/article/details/84376427一、安装Fiddler 百度搜索:Fiddler抓包工具,然后安装即可。 然后打开Fiddler工具,打开浏览器随意输入任何网址,就可以在Fiddler看到抓包信息。 但是:默认情况下,Fiddler只抓取Http格式的。 二...转载 2018-12-07 14:36:38 · 202 阅读 · 0 评论 -
抓包工具【Fiddler学习】Fiddler简介和Web抓包应用-----------一
https://blog.csdn.net/persistencegoing/article/details/84376427一、Fiddler是什么? Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的进出Fiddler的数据。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供...转载 2018-12-07 14:33:24 · 195 阅读 · 0 评论 -
httpclient爬数据遇到的坑
https://blog.csdn.net/persistencegoing/article/details/84376427练习爬数据写多了经常遇到一些很恶心的坑.1常见的就是如果httpPost = new HttpPost(url)报错一般都是你的url格式的错误,比如最常见的空格问题,好好检查格式,在index XXX 会提示你在某个位置的错误....原创 2018-11-29 20:36:05 · 887 阅读 · 0 评论