记一次自定义服务器的网页分词器

大概流程是:用socket套接字监听端口然后用socket套接字的输入流拿到数据进行操作,然后再用socket的输出流返回到页面上。
分词器用的结巴分词的接口。

这里主要是遇到了两个问题
1.URL地址栏中文乱码的问题,
在这里插入图片描述
就和上面图片里看到的一样
浏览器怎么计算文件长度 变成了 %E6%B5%8F%E8%A7%88%E5%99%A8%E6%98%AF%E6%80%8E%E4%B9%88%E8%AE%A1%E7%AE%97%E6%96%87%E4%BB%B6%E9%95%BF%E5%BA%A6

因为是自己做的服务器,没有考虑到会有这样的URL转码,tomcat服务器是自带了转码的。
然后我用 java.net.URLDecoder.decode(str,enc)
在request端请求数据和response端回送数据分别用了一次(因为一次转不出来具体原因可以百度一下。)
后来页面显示的数据就是中文了。

response端
response端
request端
request端

第二个问题就是 页面显示的字符串不完整的问题,
在这里插入图片描述
回传的协议的长度,必须是文件的byte字节数,不然显示的文件的长度不完整。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值