爬虫实战13—网页分类与针对文本的机器学习应用

最新推荐文章于 2024-08-31 00:20:27 发布

Duxianzi

最新推荐文章于 2024-08-31 00:20:27 发布

阅读量1.1k

点赞数

文章标签：爬虫网页分类文本机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Duxianzi/article/details/77842352

版权

本文介绍网页分类和文本处理技术，包括分词、TF-IDF、线性回归、Logistic回归和SVM。使用结巴分词库进行中文分词，通过TF-IDF提取特征，利用SVM和Logistic回归进行文本分类。讨论了OvO和OvR策略在多类别分类中的应用。

摘要由CSDN通过智能技术生成

文章说明：本文是在学习一个网络爬虫课程时所做笔记，文章如有不对的地方，欢迎指出，积极讨论。

一、分词

计算机是无法直接处理、读懂文本的语义的，因此要对文本进行处理，必须把一篇非结构化的连续的文本，转换为一个数学问题。目前最常用的转换，就是找出文本的关键词，把关键词用一个数学特征来代替，进而利用Logistci Regression、SVM（Support Vector Machine）、Naive Bayes等办法来处理。

（一）中文分词

分词最主要是针对中文的，因为以英文为代表的拉丁语系，文本的单词之间是有天然分割的，而中文则没有。

中文分词的手段主要是依靠字典和统计学结合。分词是基于文本的应用的基础。

得有一个词库。高质量的数据远远超过算法。

（二）分词首先是基于词典的，也就是对于一句话，依次对字的组合与词典做比较，来发现一个词。

（三）分词的歧义

交集型歧义；组合型歧义；混合型歧义。

对于歧义，需要依赖上下文来处理，有时候可以用正向最大匹配与逆向最大匹配来同时提取。

（四）结巴分词

结巴分词是一个python的中文分词库。

安装：pip install jieba

代码：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。