爬虫爬的数据乱码 java_爬虫爬数据时，post数据乱码解决办法

最新推荐文章于 2021-07-26 20:07:28 发布

数据狂人

最新推荐文章于 2021-07-26 20:07:28 发布

阅读量336

点赞数

文章标签：爬虫爬的数据乱码 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36213934/article/details/114357294

版权

最近在写一个爬虫，目标网站是：http://zx.bjmemc.com.cn/，可能是为了防止被爬取数据，它给自身数据加了密。用谷歌自带的抓包工具也不能捕获到数据。于是下了Fiddler。

Fiddler的爬取结果如下：

可见，除了头信息之外，下面的数据信息显示成了乱码。这样就不能用程序模拟浏览器发送数据了。

解决办法之一就是获取此字符串的十六进制编码。将Fiddler切换至Hexview，如下图所示：

其中蓝色部分是header头信息，黑色字体就是传送的数据。你还可以右键-》取消勾选show header，这样显示的便都是数据信息。

我们程序中可以将这个十六进制字符长串转化成字符串，然后发送到web服务器中。

转化的程序如下所示：

publicstaticbyte[] GetByteArray(stringframe)

{

byte[] buffer =newbyte[frame.Length / 2];//注意每两个十六进制字符代表一个二进制编码

for(inti = 0; i

{

intt = GetData(frame[2 * i]) * 16 + GetData(frame[2 * i + 1]);

buffer[i] = (byte)t;

}

returnbuffer;

}

staticintGetData(charp)//获得ASCII编码

{

if(p <='9'&& p >='0')

{

returnp -'0';

}

else

{

returnp -'a'+ 10;

}

}

1、先选中你要导出的十六进制字符长串-》右键-》save selected bytes-》到一文件中。但是遇到一个问题就是，如何将Fiddler的十六进制字符串拷贝出来，若手动抄写，很不现实，一来太长，二来怕错。可以借助Notepad++或者UltraEdit转化过来。本人用Notepad++实验成功：

2、用Notepad++打开此文件，发现仍然是乱码

3、下载十六进制显示插件下载：HexEditor_0_9_5_UNI_dll.zip

4、解压后将HexEditor.dll文件放在Notepad++安装目录的plugins目录下，重启notepad++

5、再次用Notepad++打开文件，plugins->HEX-Editor->View in HEX，显示如下：

6、选中你要复制的十六进制字符串，复制，然后新建文本，粘贴，就是一个带有空格的字符串了。去除空格和换行即可。

7、有一种快速去除空格的方法，选中一个空格，ctrl+f，切换到替换标签，然后点击替换所有按钮，这样将所有的空格都替换成了空字符串，也就删除了所有空格。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬的数据乱码 java_爬虫爬数据时，post数据乱码解决办法

最近在写一个爬虫，目标网站是：http://zx.bjmemc.com.cn/，可能是为了防止被爬取数据，它给自身数据加了密。用谷歌自带的抓包工具也不能捕获到数据。于是下了Fiddler。Fiddler的爬取结果如下：可见，除了头信息之外，下面的数据信息显示成了乱码。这样就不能用程序模拟浏览器发送数据了。解决办法之一就是获取此字符串的十六进制编码。将Fiddler切换至Hexview，如下...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。