记一次自定义服务器的网页分词器

最新推荐文章于 2024-11-03 11:01:20 发布

超级强大的大阳

最新推荐文章于 2024-11-03 11:01:20 发布

阅读量255

点赞数

文章标签： java socket webserver

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigSunIsStrong/article/details/106666583

版权

大概流程是：用socket套接字监听端口然后用socket套接字的输入流拿到数据进行操作，然后再用socket的输出流返回到页面上。
分词器用的结巴分词的接口。

这里主要是遇到了两个问题
1.URL地址栏中文乱码的问题，
在这里插入图片描述
就和上面图片里看到的一样
浏览器怎么计算文件长度变成了 %E6%B5%8F%E8%A7%88%E5%99%A8%E6%98%AF%E6%80%8E%E4%B9%88%E8%AE%A1%E7%AE%97%E6%96%87%E4%BB%B6%E9%95%BF%E5%BA%A6

因为是自己做的服务器,没有考虑到会有这样的URL转码，tomcat服务器是自带了转码的。
然后我用 java.net.URLDecoder.decode(str,enc)
在request端请求数据和response端回送数据分别用了一次(因为一次转不出来具体原因可以百度一下。)
后来页面显示的数据就是中文了。

response端

request端

第二个问题就是页面显示的字符串不完整的问题，
在这里插入图片描述
回传的协议的长度,必须是文件的byte字节数，不然显示的文件的长度不完整。

在这里插入图片描述

超级强大的大阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。